GPT系列概述

news/2025/3/22 6:55:40/

OPENAI做的东西

Openai老窝在爱荷华州,微软投资的数据中心

万物皆可GPT下咱们要失业了?

但是世界不仅仅是GPT

GPT其实也只是冰山一角,2022年每4天就有一个大型模型问世

GPT历史时刻

GPT-1

带回到2018年的NLP

所有下游任务都需要微调(再训练)

GPT-2

以不变应万变,需要注意的GPT-2中提示是不在训练中的

Temperature

温度的选择还是要根据实际情况来

温度越低,就希望以准确性为第一要务;

温度越高,就注重多样性选择,但准确性就降低了(对应GPT来说就有可能胡说八道了)

Top k与Top p

GPT-3

关键:让模型理解暗示的是什么东西

咱们面向百度编程,它面向人类编程

就是说GPT-3训练的数据包罗万象,上通天文下知地理

3种核心的下游任务方式

其实就是输入例子有几个,打个样

zero-shot

上面的回答我们是没有事先给出参考答案的。

one-shot

GPT回答是:打老板

few-shot

会给出多个例子

例1:

结果:

例2:

3种方式的对比

这三种方式都没有更新模型,相对来说肯定few的效果好一些;

但由于few-shot中模型是没有记住例子的能力的,所以每次提问的时候都需要给出这几个例子,但是问题就是API更贵了,输入序列长度更长了

网络结构

网络结构没啥特别的,就是transformer,但是3.2M的batch有点辣眼睛

CODEX

OpenAI Codex

GPT有点像多领域都涉及,但都不是涉及得很深;而现在很多模型都聚焦于自己擅长的领域,比如说CODEX,用于代码生成。

这其实在告诉我们一件事,GPT可以个性化设置。

Evaluating Large Language Models Trained on Code

用GPT-3模型重新训练(注意不是微调,而是输入数据换成github上爬的数据,都是代码的数据)

我总说面向GITHUB编程,GPT-3这回真把这个事干了

训练数据就是GITHUB,相当于把文档注释和代码结合到一起

输入注释或者文档,来预测代码如何实现,即要面向github编程了


http://www.ppmy.cn/news/1288682.html

相关文章

vscode开发esp新项目文件头文件没关联到

在命令行进行上面的操作 感谢b站的孤独的二进制的讲解

字符串转换tuple对象

给定“前导空格分隔的元组字符串”,还原成合法的python元组tuple对象。 (笔记模板由python脚本于2023年12月29日 19:29:03创建,本篇笔记适合熟悉Python元组tuple的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网:https://www.python.org…

《动手学深度学习》学习笔记 第5章 深度学习计算

本系列为《动手学深度学习》学习笔记 书籍链接:动手学深度学习 笔记是从第四章开始,前面三章为基础知道,有需要的可以自己去看看 关于本系列笔记: 书里为了让读者更好的理解,有大篇幅的描述性的文字,内容很…

记录:开始学习网络安全

本文持续更新学习进度 背景 在私企干了5年虚拟化、云原生相关的运维,学到了很多,但不成体系。老板是清华毕业法国留学在德勤干过,最后回国创业的野路子。我工作是为了更好的生活,我挺担心老板因为家庭变故或者炒个原油宝&#x…

ES6之Promise的链式调用

✨ 专栏介绍 在现代Web开发中,JavaScript已经成为了不可或缺的一部分。它不仅可以为网页增加交互性和动态性,还可以在后端开发中使用Node.js构建高效的服务器端应用程序。作为一种灵活且易学的脚本语言,JavaScript具有广泛的应用场景&#x…

Linux系统安装MySQL

Linux系统安装MySQL 第一步:下载YUM wget http://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpm第二步:安装MySQL的YUM 仓库 rpm -ivh mysql57-community-release-el7-11.noarch.rpm第三步:查看MySQL版本 yum repolist …

【Java】和面试官谈策略模式

你还在大篇幅的使用if…else吗? 举个例子:比如你们有一个订单系统,用户在平时下单和在双11的时候下单的时候逻辑是不一样的,可能双11下单就涉及到一些优惠之类的,这个时候你怎么做,应该有好多同学是这样做…

Java中的MD5加密详解

一、MD5加密简介 MD5(Message Digest Algorithm 5,信息摘要算法5)是一种被广泛使用的密码散列函数,可以产生出一个128位(16字节)的散列值(hash value),用于确保信息传输…