经典大语言模型解读(2):生成式预训练的先锋GPT-1

news/2024/9/18 23:07:45/ 标签: 语言模型, gpt, 人工智能

论文地址:Improving Language Understanding by Generative Pre-Training

概述

现实世界中包含了大量的文本语料数据,然而,绝大多数语料都是无标签的。

为了充分利用这些无标签语料库,GPT1.0提出直接利用这些未标记的语料来进行生成式预训练,然后对每个特定任务进行判别式微调(在标注数据上),从而显著提升在这些任务上的性能。

文中涉及的主要NLP任务包括:

  • Textual Entailment:文本蕴含,即给定一个前提文本(premise),根据这个前提文本去推断假说文本(hypothesis)与前提文本之间的关系,关系包括蕴含和矛盾两种。蕴含关系指能从前提文本推断出假说文本,而矛盾关系则指前提文本与假锁文本相矛盾。

  • Question Answer:理解用户提出的问题并从文本或知识库中找到准确的答案。

  • Semantic Similarity Assessment:计算文本之间的相似度。

  • Document Classification:文本分类任务。

下面将对GPT-1的框架进行详细的介绍。

GPT框架

GPT-1遵循了Transformer架构,但模型仅基于Transformer的解码器构建

模型的训练流程分为两个阶段:预训练和微调。

无监督预训练

给定无监督token语料库 U = { u 1 , … , u n } \mathcal{U}=\left\{u_1, \ldots, u_n\right\} U={u1,,un},模型使用标准的语言建模目标来最大化如下似然函数:
L 1 ( U ) = ∑ i log ⁡ P ( u i ∣ u i − k , … , u i − 1 ; Θ ) L_1(\mathcal{U})=\sum_i \log P\left(u_i \mid u_{i-k}, \ldots, u_{i-1} ; \Theta\right) L1(U)=ilogP(uiuik,,ui1;Θ)

其中 k k k表示上下文窗口大小,条件概率 P P P通过具有参数 Θ \Theta Θ的神经网络来建模。

想了解最大似然估计的可以参考这篇文章:一文搞懂极大似然估计

在本文中,神经网络采用的是多层Transformer编码器,该模型对输入的上下文词馈送到神经网络中,然后通过线性层生成目标词的输出分布:
h 0 = U W e + W p h l = transformer_block ⁡ ( h l − 1 ) ∀ i ∈ [ 1 , n ] P ( u ) = softmax ⁡ ( h n W e T ) \begin{aligned} h_0 & =U W_e+W_p \\ h_l & =\operatorname{transformer\_ block}\left(h_{l-1}\right) \forall i \in[1, n] \\ P(u) & =\operatorname{softmax}\left(h_n W_e^T\right) \end{aligned} h0hlP(u)=UWe+Wp=transformer_block(hl1)i[1,n]=softmax(hnWeT)

其中 U = ( u − k , … , u − 1 ) U=\left(u_{-k}, \ldots, u_{-1}\right) U=(uk,,u1)表示词的上下文向量, n n n是层数, W e W_e We是词嵌入矩阵, W p W_p Wp是位置嵌入矩阵,两者都是可学习的。

有监督微调

在完成预训练后,GPT-1根据有监督的目标任务对预训练模型的参数进行调整。

假设存在带标签的数据集 C \mathcal{C} C,其中每个实例由一个输入词序列 ( x 1 , … , x m ) (x^1, \ldots, x^m) (x1,,xm)和相应的标签 y y y组成。将输入传入预训练模型来获取输入表示 h l m h_l^m hlm,然后将其输入一个额外的线性输出层预测 y y y W y W_y Wy表示该层的可学习参数:
P ( y ∣ x 1 , … , x m ) = softmax ⁡ ( h l m W y ) P\left(y \mid x^1, \ldots, x^m\right)=\operatorname{softmax}\left(h_l^m W_y\right) P(yx1,,xm)=softmax(hlmWy)

在学习的过程中需要最大化如下目标:
L 2 ( C ) = ∑ ( x , y ) log ⁡ P ( y ∣ x 1 , … , x m ) L_2(\mathcal{C})=\sum_{(x, y)} \log P\left(y \mid x^1, \ldots, x^m\right) L2(C)=(x,y)logP(yx1,,xm)

值得注意的是,作者发现将语言建模作为微调的辅助目标有助于学习,因为这可以改善有监督模型的泛化能力和加速收敛。于是,可以得到如下的优化目标:
L 3 ( C ) = L 2 ( C ) + λ ∗ L 1 ( C ) L_3(\mathcal{C})=L_2(\mathcal{C})+\lambda * L_1(\mathcal{C}) L3(C)=L2(C)+λL1(C)

其中 λ \lambda λ为权重。

可以看出,在微调的过程中,唯一需要学习的参数为 W y W_y Wy,这极大地降低了模型的训练成本,同时也能获取到足够好的效果。

特定任务的输入转换

由于NLP任务的广泛性,各类任务的输入差异显著。像文本分类之类的任务可以像上面描述的那样对模型进行微调,而对于像问答和文本蕴含之类的任务,则需要对输入进行修改,才能适配预训练模型进行有效微调。

下图中对GPT-1中的输入转换提供了一个可视化说明。所有转换都包括添加随机初始化的开始和结束标记 ( < s > , < e > ) (<s>,<e>) (<s>,<e>)

Input Transformation

Textual entailment

对于蕴含任务,用分隔符将前提和假设连接起来,中间用分隔符$($)$标记。

Similarity

对于相似性任务,由于两个句子没有固有的顺序,因此需要修改输入序列以包含两种可能的句子顺序(句子之间同样包含分隔符)。两个拼接的序列都独立输入到预训练模型中获取序列表示,之后进行相加后输入被馈送到线性输出层。

Question Answering and Commonsense Reasoning

对于知识问答和因果推理,输入中包含一个上下文文档 z z z、一个问题 q q q和一组可能的答案 { a k } \{a_k\} {ak}。GPT-1将将文档上下文和问题与每个可能的答案连接起来,并在其间添加分隔符,即$[z;q;$;a_k]$。每个凭借的序列同样都利用模型进行独立处理,然后通过Softmax层进行归一化,以产生可能答案的输出分布。

结语

以上便是本文的全部内容,若是觉得不错可以支持一下博主,你们的支持是博主更新的不竭动力。若是有任何问题也敬请批评指正。


http://www.ppmy.cn/news/1519201.html

相关文章

VMware Workstation安装及配置CentOS7 Linux操作系统

VMware workstation安装 百度网盘&#xff0c;VMware-workstation-full-17.5.2.exe 安装包&#xff1a; 链接:https://pan.baidu.com/s/1xgbWUlo-hFUbb11MRxIVsw?pwd87bq 提取码: 87bq 检查网络适配器是否正常配置 在VMware Workstation中安装CentOS7 Linux操作系统 下载…

探秘Python字典:解锁数据管理的艺术

引言 字典&#xff08;Dictionary&#xff09;是一种可变容器模型&#xff0c;它可以存储任意类型对象。Python字典使用键-值对&#xff08;key-value pair&#xff09;存储数据&#xff0c;其中键必须是不可变的数据类型如数字、字符串等&#xff0c;而值可以是任何数据类型。…

花店鲜花管理与推荐系统+Python+Django网页界面+管理系统+计算机课设

一、介绍 花店鲜花管理与推荐系统。本系统使用Python作为主要开发语言开发的一个花店鲜花管理与推荐的网站平台。 网站前端界面采用HTML、CSS、BootStrap等技术搭建界面。后端采用Django框架处理用户的逻辑请求&#xff0c;并将用户的相关行为数据保存在数据库中。通过Ajax技…

泰山派的小手机后续(2)

之前 触摸板一直报错的解决&#xff1a; 1 我的触摸板 画错了。 从新画了一个 触摸的转接板&#xff0c;调整过来了。 关于触摸的 线序。 这块屏幕正常 就是横着放的。 关于泰山派接口的线序&#xff1a; 所以我的转接板的画法 是&#xff1a; 开发板与转接板 使用的是 反排线…

AWS 无服务计算服务 Lambda

无服务计算服务 Lambda 引言什么是 AWS Lambda关键特点使用场景 SQS 驱动 Lambda示例场景描述&#xff1a;订单处理系统解决方案&#xff1a;使用 SQS 和 Lambda示例代码&#xff1a;Python Lambda 处理 SQS 消息总结 Lambda ApplicationLambda Application 的主要组成部分创建…

“北京地铁系统中人脸识别技术的安全与效率问题研究”

关于“北京地铁系统中人脸识别技术的安全与效率问题研究”&#xff0c;可以从以下几个方面进行详细分析&#xff1a; 一、人脸识别技术在北京地铁系统中的应用 1. 安检系统 应用背景&#xff1a;为了提升地铁进站安检速度&#xff0c;减少乘客等候时间&#xff0c;北京地铁系…

深度学习速通系列:线性回归vs逻辑回归

线性回归和逻辑回归是两种常用的统计学方法&#xff0c;它们在数据分析和机器学习中扮演着重要的角色。下面是对这两种回归方法的基本介绍&#xff1a; 线性回归&#xff08;Linear Regression&#xff09;&#xff1a; 线性回归是一种预测分析方法&#xff0c;用于建模和分析…

基于单片机的无线空气质量检测系统设计

本设计以STC89C52单片机为核心&#xff0c;其中包含了温湿度检测模块、光照检测模块、PM2.5检测模块、报警电路、LCD显示屏显示电路、按键输入模块和无线传输模块来完成工作。首先&#xff0c;系统可以通过按键输入模块设置当前的时间和报警值&#xff1b;使用检测模块检测当前…

Java中的事件驱动架构(EDA)

引言 在现代软件开发中&#xff0c;事件驱动架构&#xff08;Event-Driven Architecture, EDA&#xff09;越来越受到青睐。EDA是一种软件架构范式&#xff0c;它通过生成、捕获和反应事件来驱动系统行为。在大型分布式系统中&#xff0c;EDA能够帮助我们提高系统的可扩展性、…

Golang 教程6——数组

Golang 教程6——数组 注意&#xff0c;该文档只适合有编程基础的同学&#xff0c;这里的go教程只给出有区别的知识点 1、赋值 1.1 main文件 func main() {//赋值方式1var arr [5] intarr[0] 1arr[1] 2arr[2] 3arr[3] 4arr[4] 5fmt.Println(arr)//赋值方式2var arr2 …

spring security 记住我在web和前后端分离如何使用

一、传统web开发准备工作 如果不懂原理的话&#xff0c;去看上一篇文章&#xff1a;CSDNhttps://mp.csdn.net/mp_blog/creation/editor/141716695 导入需要的依赖包&#xff0c;在传统web页面开发比较简单&#xff0c;我们设置只需要在页面请求参数加上一个remember-me 即可&a…

VS实用的调试技巧

目录 前言 一、是什么bug&#xff1f; 二、什么是调试(Debug) 三、Debug和Release 四、VS调试快捷键 4.1 环境准备 4.2 调试快捷键 五、监视和内存观察 5.1 监视 5.2 内存 六、举例 6.1 例一 6.2 例二 七、数组传参小技巧 八、编程常见错误归类 1. 编译型错误 …

【设计模式-职责链】

定义 职责链模式&#xff08;Chain of Responsibility Pattern&#xff09;是一种行为型设计模式&#xff0c;它避免请求的发送者与接收者耦合在一起&#xff0c;让多个对象都有机会处理这个请求。将这些对象连成一条链&#xff0c;并沿着这条链传递请求&#xff0c;直到有对象…

嵌入式Linux:信号分类

目录 1、不可靠信号与可靠信号 1.1、不可靠信号 1.2、可靠信号 2、实时信号和非实时信号 2.1、非实时信号 2.2、实时信号 在Linux系统中&#xff0c;信号可以从两个不同的角度进行分类&#xff1a;一是从可靠性方面&#xff0c;将信号分为可靠信号与不可靠信号&#xff1…

【drools】Rulesengine构建及intelj配置

7.57.0.FinalRulesengineApplication 使用maven构建 intelj 打开文件资源管理器实在是太慢了所以直接把pom 扔到其主页识别为maven项目,自动下载maven包管理器 然后解析依赖: 给maven加一个代理 -DproxyHost=127.0.0.1 -DproxyPort=7890 还是卡主

Python DBUtils介绍

在Python的数据库编程中&#xff0c;高效、安全地管理数据库连接是至关重要的一环。DBUtils是一个Python模块&#xff0c;它提供了一套工具&#xff0c;旨在简化数据库连接的获取、重用和释放过程&#xff0c;从而提高应用程序的性能和可维护性。本文将详细介绍DBUtils的功能、…

深入解析浏览器与Web服务器的通信机制:从URL输入到页面渲染的全过程

浏览器与Web服务器的通信原理 1. 基本交互模式 浏览器向Web服务器发送请求&#xff0c;Web服务器向浏览器返回响应。这种应用程序之间的通信类似于人与人之间的对话,能够彼此响应。 2. 网络通信的基础 网络由多种通信设备组成通信前需确定双方位置进行请求和响应的交互 3.…

Kubernetes共享存储的作用

Kubernetes共享存储的作用 1、共享存储的作用2、实现方式💖The Begin💖点点关注,收藏不迷路💖 在Kubernetes中,对于有状态或需要数据持久化的应用,共享存储至关重要。它确保了即使容器重启或迁移,应用数据也能安全保存,并能在新容器中继续使用。 1、共享存储的作用…

[MySql]保姆级上手教程

介绍 通过数据库管理系统, 编写执行SQL语句, 实现对数据库数据的管理 数据库(DataBase): 储存和管理数据的仓库数据库管理系统(DBMS): 操作和管理数据库的软件SQL语言: 操作关系型数据库的通用语言数据库可以分为关系型数据库和非关系型数据库 相关产品 常见的关系型数据库产…

【SpringCloud应用框架】GateWay异步非阻塞模型

Spring Cloud Alibaba 之 GateWay工作流程GateWay搭建 文章目录 一、GateWay工作流程工作流程的核心点总结 二、GateWay搭建 一、GateWay工作流程 流程图如下&#xff1a; 核心概念&#xff1a; 客户端向 Spring Cloud Gateway 发出请求。如果Gateway Handler Mapping确定请…