GPT系列

embedded/2024/10/9 10:54:58/

GPT(Generative Pre-Training):

训练过程分两步:无监督预训练+有监督微调

模型结构是decoder-only的12层transformer

1、预训练过程,窗口为k,根据前k-1个token预测第k个token,训练样本包括7000本书的内容

2、微调过程,使用有标记的样本,样本输入预训练模型,使用最后一层transformer的输出,接linear+softmax层,预测输出

损失函数如下

使用L1作为辅助优化目标有两点好处,首先能够提高模型的泛化能力,第二是能够加速收敛。

3、不同任务的输入格式适配:将结构化的输入转化为有序序列



GPT系列演化参考文档:简单之美 | GPT 系列模型技术演化之路



GPT-2

与 GPT-1 不同,GPT-2 对每个 Encoder Block 的自注意力层,前后分别都进行了层归一化(Layer Normalization)操作,即在每一层的输入和输出都有一个 Layer Normalization 子层。

在输入自注意力层之前新增 Layer Normalization 层,能够将输入数据的均值和方差分别标准化为 0 和 1,使数据在不同的尺度上保持一致。而且,这种策略能够缓解梯度消失和梯度爆炸的问题。同时,层归一化有助于优化器在更新权重时找到合适的方向,提高模型的训练稳定性和收敛速度。

GPT-3

预训练后,不微调,使用上下文学习(In Context Learning,ICL)
引入稀疏注意力机制

GPT-3 就是使用的普通 Transformer 和 Sparse Transformer 的混合模式。Sparse Transformer 的特点是只关注 Top-k 个贡献最大的特征的状态,它使用稀疏注意力机制替代了 Transformer 的密集注意力。

GPT-3.5/InstructGPT

代码数据训练和人类偏好对齐

基于人类反馈的强化学习算法RLHF

基于GPT-3进行微调,三个阶段的微调方法和过程,可以通过下图给出的步骤来简要说明

分别对应于上面提到的三个模型(SFT 模型、RM 模型、RL 模型),InstructGPT 的训练过程主要包括如下三个步骤:
Step 1: Collect demonstration data, and train a supervised policy.
Step 2: Collect comparison data, and train a reward model.
Step 3: Optimize a policy against the reward model using PPO.

GPT-4

GPT -4是一个多模态大模型

GPT-4 的核心原理是,基于 Decoder-only 的 Transformer 自回归语言模型,即通过给定的文本序列,预测下一个词的概率分布,从而生成新的文本。GPT-4 采用了大规模的无监督预训练和有监督微调的方法,即先在海量的通用文本语料上进行预训练,学习文本的通用特征和规律,然后在特定的下游任务上进行微调,学习任务的特定知识,从而实现对任意文本的生成和理解。

OpenAI在技术报告中强调了GPT-4的安全开发重要性,并应用了干预策略来缓解潜在问题,如幻觉、隐私泄露等。






http://www.ppmy.cn/embedded/125039.html

相关文章

Java—逻辑控制与输入输出

各位看官:如果您觉得这篇文章对您有帮助的话 欢迎您分享给更多人哦 感谢大家的点赞收藏评论,感谢您的支持!!! 一.顺序结构: 我每天起床,躺在床上玩手机,然后吃中午饭,睡…

【习题】应用UX体验标准

判断题 1. 除一级界面外,所有全屏界面均需要提供返回/关闭/取消按钮。(全屏沉浸式场景除外)。 A、正确(True) B、错误(False) 2. 可以上下滚动的内容,例如列表、卡片等无需避开挖孔区显示。 A、正确(True) B、错误(False) 单选题 1. 应…

TCN-Transformer时间序列预测(多输入单预测)——基于Pytorch框架

1 数据集介绍 我们使用的数据集包含以下几个重要的属性: date(日期) open(开盘价) high(最高价) low(最低价) close(收盘价) pre_close&…

Pikichu-xss实验案例-通过xss获取cookie

原理图: pikachu提供了一个pkxss后台; 该后台可以把获得的cookie信息显示出来; 查看后端代码cookie.php:就是获取cookie信息,保存起来,然后重定向跳转到目标页面;修改最后从定向的ip&#xff0…

【第三版 系统集成项目管理工程师】第15章 组织保障

持续更新。。。。。。。。。。。。。。。 【第三版】第十五章 组织保障 15.1信息和文档管理15.1.1 信息和文档1.信息系统信息-P5462.信息系统文档-P546 15.1.2 信息(文档)管理规则和方法1.信息(文档)编制规范-P5472.信息(文档)定级保护-P5483.信息(文档)配置管理-P549练习 15.…

neo4j知识图谱管理系统,结合es全文检索,知识管理系统

一、项目介绍 一款全源码,可二开,可基于云部署、私有部署的企业级知识库云平台,一款让企业知识变为实打实的数字财富的系统,应用在需要进行文档整理、分类、归集、检索、分析的场景。 为什么建立知识库平台? 助力企业…

【3dgs】3DGS**(3D Geometry Sensing)与 **NeRF**(Neural Radiance Fields)对比

以下是 3DGS(3D Geometry Sensing)与 NeRF(Neural Radiance Fields)对比表格: 更加详细的资料,轻参考: NERF/3DGS 对比维度3DGS (3D Geometry Sensing)NeRF (Neural Radiance Fields)基本原理…

Pikachu-目录遍历

目录遍历,跟不安全文件上传下载有差不多; 访问 jarheads.php 、truman.php 都是通过 get 请求,往title 参数传参; 在后台,可以看到 jarheads.php 、truman.php所在目录: /var/www/html/vul/dir/soup 图片…