人工智能论文:GPT, GPT-2, GPT-3 对比和演进的思路

embedded/2024/9/23 10:47:26/

2018.6 GPT: Improving Language Understanding by Generative Pre-Training

第一篇主要强调 无监督预训练+有监督微调+transformer


主要成果:


1,无监督预训练:使得模型能够从海量未标记数据中自主学习,为后续任务提供了强大的初始权重。
2,有监督微调:过结合具体任务的数据对预训练模型进行微调,以进一步提升其在特定任务上的表现。
3,使用了Transformer 的decoder模块:相较于传统的RNN等模型,其性能优势显著,这主要得益于Transformer的自注意力机制,使其能够更有效地捕捉序列中的长距离依赖关系。
4,下一步继续致力于推动无监督学习领域的发展


2019.2 GPT-2:2019.2 Language Models are Unsupervised Multitask Learners

第二篇接续第一篇的结论,我们进一步强调了无监督学习的重要性,并致力于推动其向通用人工智能的方向发展,而非仅限于应试目的。


主要成果:


1,继续大规模无监督预训练,不要有监督微调。虽然无监督学习在训练过程中可能较为缓慢,但我们通过增大训练数据集规模和模型参数数量,成功弥补了与有监督微调在性能上的差距。
2,scaling law 大力出奇迹。即通过提升模型规模和训练数据的量来获得性能的提升。例如,GPT-2 的参数量达到1.5B,相较于原始GPT的0.1B,直接提高了15倍;而BERT的参数量也达到了0.3B,相较于之前的模型提高了5倍。
3, zero-shot 零样本的设定,不要有监督微调。即模型在未经任何有监督微调的情况下,直接应用于新任务。这一设定不仅展示了无监督学习的强大潜力,也为我们实现通用人工智能提供了更为灵活和高效的解决方案。


2020.5 GPT-3:2020.5 Language Models are Few-Shot Learners

第三篇接续第二篇的目标,继续探索通用人工智能的实现路径。我们参考了人类的学习方式,即只需少量示例就能快速适应并执行新的语言任务。GPT-3在这一方向上取得了显著进展,通过进一步提高模型尺寸,并避免繁琐的有监督微调过程,仅通过少量样本配置,便达到了与最先进微调方式相媲美的性能。

主要成果:


1,scaling law 大力出奇迹。GPT-3的参数规模达到了惊人的175B,相较于GPT-2的1.5B,直接提升了100倍;而相较于原始GPT的0.1B和BERT的0.3B,更是有了质的飞跃。
2, 摒弃了传统的有监督微调方法,转而采用few-shot学习策略,即仅通过少量样本配置,便能让模型快速适应新任务。这种方式直接对标了目前最先进的微调技术,展示了无监督学习在通用人工智能领域的巨大潜力。
3,晒了一堆结果,就是没告诉大家如何做到的。openAI开启了闭源发展。
4,随着GPT-3能力的不断增强,其在社会中的影响也日益显著。我们引发了关于AI能力增长对社会影响的广泛讨论,以期能够共同探索和解决这些潜在问题,推动AI技术的健康发展。
 


http://www.ppmy.cn/embedded/30270.html

相关文章

SSM+Vue在线OA办公系统

在线办公分三个用户登录,管理员,经理,员工。 SSM架构,maven管理工具,数据库Mysql,系统有文档,可有偿安装调试及讲解,项目保证质量。需要划到 最底 下可以联系到我。 功能如下&am…

实习面试之算法准备:数学题

目录 1 技巧2 例题2.1 Nim 游戏2.2 石子游戏2.3 灯泡开关 1 技巧 稍加思考,找到规律 2 例题 2.1 Nim 游戏 你和你的朋友,两个人一起玩 Nim 游戏: 桌子上有一堆石头。 你们轮流进行自己的回合, 你作为先手 。 每一回合&#xf…

B树:原理、操作及应用

B树:原理、操作及应用 一、引言二、B树概述1. 定义与性质2. B树与磁盘I/O 三、B树的基本操作1. 搜索(B-TREE-SEARCH)2. 插入(B-TREE-INSERT)3. 删除(B-TREE-DELETE) 四、B树的C代码实现示例五、…

【设计模式】抽象工厂模式(Abstract Factory Pattern)

目录标题 抽象工厂设计模式详解1. 介绍2. 结构3. 实现步骤3.1 创建抽象产品接口3.2 创建具体产品类3.3 创建抽象工厂接口3.4 创建具体工厂类 4. 好处与优点5. 坏处与缺点6. 适用场景7. 总结 抽象工厂设计模式详解 1. 介绍 抽象工厂模式是一种创建型设计模式,它提供…

【中断】【ARM64】学习总结

optee中的异常向量表解读–中断处理解读 https://mp.weixin.qq.com/s/gBsy4YDYTHGRsy2zcVr6Vg

Apache DolphinScheduler支持Flink吗?

随着大数据技术的快速发展,很多企业开始将Flink引入到生产环境中,以满足日益复杂的数据处理需求。而作为一款企业级的数据调度平台,Apache DolphinScheduler也跟上了时代步伐,推出了对Flink任务类型的支持。 Flink是一个开源的分…

笨蛋学C++【C++基础第九弹】

C基础第八弹 5.C模板函数模板类模板 6.C预处理器#define 预处理参数宏条件编译# 和 ## 运算符C 中的预定义宏 7.C信号处理signal() 函数raise() 函数 5.C模板 模板是泛型编程的基础,泛型编程即以一种独立于任何特定类型的方式编写代码 函数模板 语法: …

Golang Colly爬取图片gorm存储数据

语言:Golang 库:Iris/Colly/gorm 运行结果 text/html; charset=utf-8 It is image 20240429222029_0_0.jpg Saved file: images\20240429222029_0_0.jpg text/html; charset=utf-8 It is image 20240429222030_1_0.jpg Saved file: images\20240429222030_1_0.jpg It is ima…