<论文>初代GPT长什么样?

devtools/2024/12/24 10:54:43/

一、摘要

        今天我们聊一下论文《Improving Language Understanding by Generative Pre-Training》以及它所提出来的预训练模型——GPT1。我们知道Bert在出道那会儿红极一时,但实际上GPT1比Bert还要早几个月就出道了,而且同样刷新了当时的多个任务记录。GPT1代也是GPT系列的开山之作,往后的GPT2、GPT3乃至如今的ChatGPT都是采用的这一套核心架构逻辑。

81bc025b2dd842e9a9aaca9d82fb4fe8.png

译文:

        自然语言理解包含诸多不同的任务,例如文本蕴含、问答、语义相似度评估以及文档分类等。尽管大量未标注的文本语料十分丰富,但用于学习这些特定任务的标注数据却很稀缺,这使得经过判别式训练的模型难以充分发挥性能。我们证明,通过在多样化的未标注文本语料上对语言模型进行生成式预训练,然后针对每个特定任务进行判别式微调,能够在这些任务上取得显著的成效。与以往的方法不同,我们在微调过程中利用了任务感知的输入转换,在对模型架构只需做极少改动的情况下实现了有效的迁移。我们在众多自然语言理解的基准测试中证明了我们方法的有效性。我们这种通用的、与任务无关的模型,其性能优于那些使用为各任务专门设计架构的经过判别式训练的模型,在所研究的 12 项任务中的 9 项任务上显著超越了现有技术水平。例如,在常识推理(故事完形填空测试)任务上我们实现了 8.9% 的绝对提升,在问答(RACE)任务上实现了 5.7% 的提升,在文本蕴含(MultiNLI)任务上实现了 1.5% 的提升。

二、模型创新点

b1c4dba0418c4fa4b5a9f1079bff1783.png

        GPT模型的训练过程包含两个阶段:第一阶段是在大规模文本语料上学习一个高容量的语言模型,也就是我们所熟知的“预训练”。随后是“微调”阶段,在这个阶段可以根据不同的下游任务来设置对应的模型微调策略,从而实现在特定任务上的高性能表现。

1、无监督生成式预训练

        给定一个无监督的Token语料库eq?U%20%3D%20%5Cleft%20%5C%7B%20u_%7B1%7D%2Cu_%7B2%7D%2C...%2Cu_%7Bn%7D%20%5Cright%20%5C%7D,作者使用标准的语言建模目标来最大化以下似然函数:

eq?L_%7B1%7D%28U%29%20%3D%20%5Csum_%7Bi%7DlogP%28u_%7Bi%7D%7Cu_%7Bi-k%7D%2C...%2Cu_%7Bi-1%7D%3B%5CTheta%20%29

        其中k是上下文窗口的大小,条件概率P由具有eq?%5CTheta参数的神经网络建模。这些参数使用随机梯度下降法进行训练。

        在论文的实验中,作者使用了多层 Transformer 解码器作为语言模型。该模型对输入的上下文Token应用多头自注意力操作,接着是位置感知的前馈层(position-wise feedforward layers),以生成目标Token上的输出分布:

eq?h_%7B0%7D%20%3D%20UW_%7BE%7D+W_%7BP%7D

eq?h_%7Bl%7D%20%3D%20<a class=transformer%5C_block%28h_%7Bl-1%7D%29%5Cforall%20i%20%5Cin%20%5B1%2Cn%5D" class="mathcode" src="https://latex.csdn.net/eq?h_%7Bl%7D%20%3D%20transformer%5C_block%28h_%7Bl-1%7D%29%5Cforall%20i%20%5Cin%20%5B1%2Cn%5D" />

eq?P_%7Bu%7D%20%3D%20softmax%28h_%7Bn%7DW_%7BE%7D%5E%7BT%7D%29

        其中,eq?U%20%3D%20%5Cleft%20%5C%7B%20u_%7B-k%7D%2C...%2Cu_%7B-1%7D%20%5Cright%20%5C%7D是Token的上下文向量,eq?W_%7BE%7D是Token的embedding矩阵,eq?W_%7BP%7D是位置嵌入矩阵,n是层数。

2、有监督微调

        在使用无监督生成式预训练完成对模型的初步训练后,作者提出将参数适配到有监督的目标任务中能够进一步提升模型在目标任务上的性能。设有一个带标签的数据集C,其中每个实例都由一系列输入Tokens(eq?x%5E%7B1%7D%2C...%2Cx%5E%7Bm%7D)以及一个标签y组成。输入Tokens会通过预训练模型来获得最后一个 Transformer 块的激活值eq?h_%7Bl%7D%5E%7Bm%7D,然后将其输入到一个具有参数eq?W_%7By%7D的线性输出层来预测标签y:

eq?P%28y%7Cx%5E%7B1%7D%2C...%2Cx%5E%7Bm%7D%29%20%3D%20softmax%28h_%7Bl%7D%5E%7Bm%7DW_%7By%7D%29

        这就得到了以下要最大化的目标:

eq?L_%7B2%7D%28C%29%20%3D%20%5Csum_%7B%28x%2Cy%29%7DlogP%28y%7Cx%5E%7B1%7D%2C...%2Cx%5E%7Bm%7D%29

        此外,作者还发现将语言建模作为微调的辅助目标有助于学习,具体表现为:(a)提高有监督模型的泛化能力;(b)加速收敛。具体来说,优化以下目标(权重为 eq?%5Clambda):

eq?L_%7B3%7D%28C%29%20%3D%20L_%7B2%7D%28C%29%20*%20%5Clambda%20L_%7B1%7D%28C%29

        总体而言,在微调期间所需的额外参数仅有eq?W_%7By%7D以及分隔符Tokens的embedding。

三、总结

        Transformer模型编码器-解码器的架构在机器翻译领域取得了很好的成效,而GPT仅使用解码器堆叠的架构使得了该模型能够用于多个自然语言处理任务,进一步扩大了Transformer系列模型变体的应用范围。GPT论文中提到的预训练+微调的模型训练方式,也在后来成为了预训练模型和的默认训练范式。


http://www.ppmy.cn/devtools/144957.html

相关文章

ECharts柱状图-柱图38,附视频讲解与代码下载

引言&#xff1a; 在数据可视化的世界里&#xff0c;ECharts凭借其丰富的图表类型和强大的配置能力&#xff0c;成为了众多开发者的首选。今天&#xff0c;我将带大家一起实现一个柱状图图表&#xff0c;通过该图表我们可以直观地展示和分析数据。此外&#xff0c;我还将提供…

问题:解决将网页内容导出为PDF时部分内容被遮挡的问题

问题&#xff1a;解决将网页内容导出为PDF时部分内容被遮挡的问题 在日常工作和学习中&#xff0c;我们经常需要将网页内容保存为PDF格式以便于分享和打印。然而&#xff0c;使用主流浏览器的【打印】选项将网页另存为PDF时&#xff0c;常常会遇到页面顶部内容被遮挡、显示不全…

【批量生成WORD和PDF文件】根据表格内容和模板文件批量创建word文件,一次性生成多个word文档和批量创建PDF文件

如何按照Word模板和表格的数据快速制作5000个word文档 &#xff1f; 在与客户的合作的中需要创建大量的合同&#xff0c;这些合同的模板大概都是一致的&#xff0c;是不是每次我们都需要填充不一样的数据来完成&#xff1f; 今天用表格数据完成合同模板的填充&#xff0c;批量…

利用编程获得money?

在当今数字化时代&#xff0c;编程技能为人们开辟了众多赚钱途径。无论你是编程新手还是经验丰富的开发者&#xff0c;都能在广阔的市场中找到适合自己的盈利方式。以下是一份详细的用编程赚钱指南。 一、自由职业平台 像 Upwork、Freelancer 和 Fiverr 等知名自由职业平台&am…

国标GB28181平台EasyGBS在安防视频监控中的信号传输(电源/视频/音频)特性及差异

在现代安防视频监控系统中&#xff0c;国标GB28181协议作为公共安全视频监控联网系统的国家标准&#xff0c;该协议不仅规范了视频监控系统的信息传输、交换和控制技术要求&#xff0c;还为不同厂商设备之间的互联互通提供了统一的框架。EasyGBS平台基于GB28181协议&#xff0c…

C语言:字符函数和字符串函数

一.字符分类函数 C语言中有一系列的函数是专门做字符分类的&#xff0c;也就是一个字符是属于什么类型的字符的。这些函数的使用都需要包含一个头文件是ctype.h。 如图&#xff1a; 这些函数的使用方法非常类似&#xff0c;我们就讲解一个函数的事情&#xff0c;其他的非常类似…

SCOPE: Optimizing Key-Value Cache Compression in Long-context Generation

基本信息 &#x1f4dd; 原文链接: https://arxiv.org/abs/2412.13649&#x1f465; 作者: Jialong Wu, Zhenglin Wang, Linhai Zhang, Yilong Lai, Yulan He, Deyu Zhou&#x1f3f7;️ 关键词: large language models, Key-Value Cache&#x1f4da; 分类: 机器学习 摘要 …

二进制分析的新兴趋势:塑造安全的移动应用

在当今快速发展的数字世界中&#xff0c;保障移动应用的安全性变得尤为重要。随着移动技术的广泛应用&#xff0c;安全性需求也日益增强。二进制分析作为确保移动应用安全和合规性的重要手段&#xff0c;通过对已编译的应用进行深入分析&#xff0c;能够发现源代码中难以察觉的…