「深度解析」ChatGPT2:无监督多任务学习的语言模型(2019)

news/2024/10/5 22:49:43/

论文总结

以下是我阅读完整篇论文做的个人总结,包含了ChatGPT-2文章的主要内容,可以仅看【论文总结】章节。

数据集

自制了一个网页爬虫,被抓取的网页部分来自于社交平台,这些网页由人工进行过滤。最终生成
WebText数据集
,包含45000000个链接。另一部分来自于新闻网站,数据截止2017年12月,数据总量达到8000000篇文章,总共有40GB的文本内容。文章还提到,包括wiki百科等文本也纳入训练数据集,由
全世界各地数百万人参与
来创建和清洗GPT-2训练所用的数据集。

输入表示

设计了一种
结合单词级表示和字节级表示的混合输入表示
。针对过去的单词级库去除大量重复单词,又引入字节级表示来提升泛化能力。

单词级表示具有先验优势,字节级表示具有泛化优势。

模型

针对GPT1进行了部分修改:

1.将层归一化移动到每个子块的输入。

2.在自注意块之后添加额外的层归一化。

3.改进了初始化方法(初始化时将残差层的权重按1/√N的倍数扩大,N是残差层数量)。

4.词典扩大,分词扩大,指令集扩大,批处理大小扩大。

5.GPT包含117000000参数,
GPT-2包含1542000000参数

实验

因为只训练一次,却想观察模型在各个细分领域的表现,因此所有实验都可归类为
零次学习(zero-shot)

测试项目测试模型的哪方面能力测试结果
儿童书籍识别不同类型的词汇ACC从85.7提升至93.3
LAMBADA测试识别文本中长依赖的能力PPL99.8降低至8.63
Winograd Schema Challenge常识性推理63.7%提升至70.7%
阅读理解需要模型具有一定记忆能力4项测试3项刷新历史记录
摘要对新闻文章提取摘要的能力与历史成绩持平
翻译大模型自动学习的翻译能力英译法较差,法译英达到基准水平
问答模型对于似是而非问题回答正确的能力准确度提升5.3倍
总结

GPT-2论文的核心内容,可以用一句话进行总结:那就是
在GPT模型的基础上,作者提升了模型大小和训练数据集大小,结果发现GPT-2可以自动适应并完成NLP不同领域的任务目标的学习

举个例子来说,我们同时给一个固定的语言模型输入日常对话文本和新闻报道文本的数据集,并且这个数据集足够大、模型足够大、训练时间足够长。则最终产出的模型将会拥有区分日常对话和新闻报道的不同场景的能力,不仅如此模型还将自动拥有一些新的能力,例如编写新闻摘要的能力。

这意味着大型语言模型具有很强的泛化能力,同时也意味着
大型语言模型将会具有潜在自主意识
。随后本文针对作者列举的几个独立领域,陈述了实验结果。

相比于GPT论文中只提到Large Dataset,GPT-2论文中开始出现LLM(Large Language Model)的描述。


论文原文解读

原论文地址:https://cdn.openai.com/better-language-models/language_models_are_uns


http://www.ppmy.cn/news/1473712.html

相关文章

Linux-DNS

DNS域名解析服务 1.DNS介绍 DNS 是域名系统 (Domain Name System) 的缩写,是因特网的一项核心服务,它作为可以将域名和IP地址相互映射的一个分布式数据库,能够使人更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。…

产品经理-工作流程及职能(6)

产品经理作为互联网项目的主心骨,连接着团队的所有成员(开发、设计、运营、测试、市场等) 用合理的产品规划和清晰的产品愿景带领大家前进,通过满足用户需求来创造属于自己的商业利益。 在通常情况下,PM需要对整个产品…

其他OpenAI API和功能

文章目录 嵌入嵌入如何为ML模型翻译语言内容审核模型Whisper 和 DALL.E除了文本补全功能,OpenAl用户还可以使用其他一些功能但如果你想深入了解所有API那么请查看OpenAl的APl reference 页面。 嵌入 由于模型依赖数学函数,因此它需要数值输入来处理信息。然而,许多元素(如…

探索Scala的类型奥秘:协变与逆变全解析

🔄 探索Scala的类型奥秘:协变与逆变全解析 在Scala的强类型系统中,协变(covariance)和逆变(contravariance)是两个核心概念,它们允许我们在泛型编程中更灵活地使用类型。本文将深入…

【基础篇】1.8 C语言基础(二)更新中

三,位操作 在STM32开发中,位操作是非常重要的技术,特别是在处理器外设寄存器的配置和控制过程中。它可以有效地提高代码的性能、可维护性和可移植性。 3.1 位操作运算符 3.1.1 按位与(&) 运算规则:如果两个操作数的对应位都为 1,则结果为 1;否则为 0。示例:a &…

Apache DolphinScheduler 与 AWS 的 EMR/Redshift 集成实践分享

引言 这篇文章将给大家讲解关于DolphinScheduler与AWS的EMR和Redshift的集成实践,通过本文希望大家能更深入地了解AWS智能湖仓架构,以及DolphinScheduler在实际应用中的重要性。 AWS智能湖仓架构 首先,我们来看一下AWS经典的智能湖仓架构图…

数据结构(Java):迭代器遍历【底层源码解析】

1、引言 我们知道,对于List系列集合,添加的元素是有序、可重复、有索引的;而对于Set系列集合,添加的元素是无序、不重复、无索引的。 那么使用for循环通过下标来对Set系列集合进行遍历,那显然是不行的。 迭代器就可…

什么是 JVM( Java 虚拟机),它在 Java 程序执行中扮演什么角色?

JVM,全称Java Virtual Machine,中文译作“Java虚拟机”,它是运行Java程序的软件环境,也是Java语言的核心部分之一。 想象一下,如果你是一位环球旅行家,每到一个新的国家,都需要学习当地的语言才…