人工智能论文:GPT, GPT-2, GPT-3 对比和演进的思路

news/2024/9/20 1:18:52/ 标签: gpt, gpt-3, 人工智能, bert, 深度学习, 语言模型, transformer

2018.6 GPT: Improving Language Understanding by Generative Pre-Training

第一篇主要强调 无监督预训练+有监督微调+transformer


主要成果:


1,无监督预训练:使得模型能够从海量未标记数据中自主学习,为后续任务提供了强大的初始权重。
2,有监督微调:过结合具体任务的数据对预训练模型进行微调,以进一步提升其在特定任务上的表现。
3,使用了Transformer 的decoder模块:相较于传统的RNN等模型,其性能优势显著,这主要得益于Transformer的自注意力机制,使其能够更有效地捕捉序列中的长距离依赖关系。
4,下一步继续致力于推动无监督学习领域的发展


2019.2 GPT-2:2019.2 Language Models are Unsupervised Multitask Learners

第二篇接续第一篇的结论,我们进一步强调了无监督学习的重要性,并致力于推动其向通用人工智能的方向发展,而非仅限于应试目的。


主要成果:


1,继续大规模无监督预训练,不要有监督微调。虽然无监督学习在训练过程中可能较为缓慢,但我们通过增大训练数据集规模和模型参数数量,成功弥补了与有监督微调在性能上的差距。
2,scaling law 大力出奇迹。即通过提升模型规模和训练数据的量来获得性能的提升。例如,GPT-2 的参数量达到1.5B,相较于原始GPT的0.1B,直接提高了15倍;而BERT的参数量也达到了0.3B,相较于之前的模型提高了5倍。
3, zero-shot 零样本的设定,不要有监督微调。即模型在未经任何有监督微调的情况下,直接应用于新任务。这一设定不仅展示了无监督学习的强大潜力,也为我们实现通用人工智能提供了更为灵活和高效的解决方案。


2020.5 GPT-3:2020.5 Language Models are Few-Shot Learners

第三篇接续第二篇的目标,继续探索通用人工智能的实现路径。我们参考了人类的学习方式,即只需少量示例就能快速适应并执行新的语言任务。GPT-3在这一方向上取得了显著进展,通过进一步提高模型尺寸,并避免繁琐的有监督微调过程,仅通过少量样本配置,便达到了与最先进微调方式相媲美的性能。

主要成果:


1,scaling law 大力出奇迹。GPT-3的参数规模达到了惊人的175B,相较于GPT-2的1.5B,直接提升了100倍;而相较于原始GPT的0.1B和BERT的0.3B,更是有了质的飞跃。
2, 摒弃了传统的有监督微调方法,转而采用few-shot学习策略,即仅通过少量样本配置,便能让模型快速适应新任务。这种方式直接对标了目前最先进的微调技术,展示了无监督学习在通用人工智能领域的巨大潜力。
3,晒了一堆结果,就是没告诉大家如何做到的。openAI开启了闭源发展。
4,随着GPT-3能力的不断增强,其在社会中的影响也日益显著。我们引发了关于AI能力增长对社会影响的广泛讨论,以期能够共同探索和解决这些潜在问题,推动AI技术的健康发展。
 


http://www.ppmy.cn/news/1450269.html

相关文章

分布式八股文

什么是分布式系统? 集中式系统,可以理解为将一整个系统的所有功能,包括数据库各种都部署在一起,统一向外提供服务。分布式就是将集中式系统拆分成多个系统,每一个系统单独对外提供服务,整一个提供一整套服务。意味着能够采用更多的服务器,CPU、内存、存储资源增加,能够…

C++|STL-list运用(1)

cplusplus.com/reference/list/list/?kwlist list介绍 list是一个双向循环链表,双向循环链表它的每个节点都有两个链接,一个指向前一个节点,另一个指向下一个节点,且最后一个结点指向头节点。 结点组成 1.数据域 2.指针域 &a…

Uniapp好看登录注册页面

个人介绍 hello hello~ ,这里是 code袁~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 🦁作者简介:一名喜欢分享和记录学习的…

JavaEE 初阶篇-深入了解特殊文件(Properties 属性文件、XML)

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 Properties 属性文件概述 1.1 Properties 属性文件特性与作用 1.2 使用 Properties 把键值对数据写出到属性文件中 1.3 使用 Properties 读取属性文件里的键值对数…

CasinoRoyale靶机练习实践报告

CasinoRoyale靶机练习实践报告 下载地址: https://drive.google.com/open?id1FYP246L63zShV00wOckAQ5F5XJ4HkZ0Lhttps://download.vulnhub.com/casinoroyale/CasinoRoyale.ovahttps://download.vulnhub.com/casinoroyale/CasinoRoyale.ova.torrent ( Magnet) 1 安装靶机 …

【ARM Cortex-M3指南】1:总览

文章目录 一、介绍1.1 ARM Cortex-M3处理器是什么1.2 ARM和ARM架构的背景1.2.1 历史简介1.2.2 架构版本1.2.3 处理器命名 1.3 指令集开发1.4 Thumb-2技术和指令集架构1.5 Cortex-M3处理器应用1.6 本书的组织结构1.7 深入阅读 一、介绍 1.1 ARM Cortex-M3处理器是什么 ARM Cor…

阿里云CentOS7 打开/关闭防火墙 开放端口

#查看防火墙状态# systemctl status firewalld #关闭防火墙# systemctl stop firewalld #打开防火墙# systemctl start firewalld #添加开放2375端口# firewall-cmd --add-port2375/tcp --permanent #重载入添加的端口# firewall-cmd --reload #查询2375端口是否开启成…

【Kotlin】select简介

1 前言 协程的 select 是一种用于异步操作的选择器,它允许同时等待多个挂起函数的结果,并在其中一个完成时执行相应的操作。 能够被 select 的事件都是 SelectClause,在 select.kt 中有定义,如下。 public interface SelectBuild…

课程34:Windows Docker部署.Net Core项目

这里写目录标题 🚀前言一、安装Docker Desktop1.1 官网下载Docker1.2 安装Docker1.2.1 选择配置,默认都勾选1.2.2 安装中1.2.3 安装成功1.2.4 启动1.2.5 启动成功二、.Net Core 项目发布与部署2.1 修改Dockerfile文件2.2 Web项目发布2.3 修改配置2.3.1 修改dockerfile<

头歌:RDD的创建 -Scala

第1关&#xff1a;集合并行化创建RDD 任务描述 本关任务&#xff1a;计算并输出各个学生的总成绩。 相关知识 为了完成本关任务&#xff0c;你需要掌握&#xff1a;1.集合并行化创建RDD&#xff0c;2.reduceByKey算子、foreach算子 集合创建RDD Spark会将集合中的数据拷贝到集…

MR混合现实情景实训教学系统在军事课堂上的应用

在现代军事教育中&#xff0c;实践教学的重要性日益凸显。传统的军事课堂教育方式往往侧重于理论知识的传授&#xff0c;而忽视了实践操作的重要性。而MR混合现实情景实训教学系统的引入&#xff0c;为军事课堂教育带来了全新的可能性。 MR混合现实情景实训教学系统是一种结合了…

React Context

Context https://juejin.cn/post/7244838033454727227?searchId202404012120436CD549D66BBD6C542177 context 提供了一个无需为每层组件手动添加 props, 就能在组件树间进行数据传递的方法 React 中数据通过 props 属性自上而下(由父及子)进行传递&#xff0c;但此种用法对…

Dynamic World Training Data动态世界训练和验证数据集(土地分类和土地利用)

摘要: 动态世界训练数据(Dynamic World Training Data )是一个由超过 50 亿像素的人工标注欧空局哨兵-2 卫星图像组成的数据集,分布在从世界各地收集的 24000 块瓷砖上。该数据集旨在训练和验证自动土地利用和土地覆被制图算法。分辨率为 10 米的 5.1km x 5.1km 瓦片采用十…

【跟马少平老师学AI】-【神经网络是怎么实现的】(五)梯度消失问题

一句话归纳&#xff1a; 1&#xff09;用sigmoid激活函数时&#xff0c;BP算法更新公式为&#xff1a; 用sigmoid函数&#xff0c;O取值为0~1&#xff0c;O(1-O)最大值为0.25&#xff0c;若神经网络层数多&#xff0c;则会造成更新项趋近于0&#xff0c;称为梯度消失。 2&#…

OpenCV4.9去运动模糊滤镜(68)

返回:OpenCV系列文章目录&#xff08;持续更新中......&#xff09; 上一篇:OpenCV4.9失焦去模糊滤镜(67) 下一篇 :OpenCV系列文章目录&#xff08;持续更新中......&#xff09; 目标 在本教程中&#xff0c;您将学习&#xff1a; 运动模糊图像的 PSF 是多少如何恢复运动模…

【银角大王——Django课程——用户表的基本操作】

Django课程——用户表的基本操作 模板的继承用户管理用户列表展示新建用户Django组件原始方法【麻烦&#xff0c;太原始】form组件modelform组件 使用modelsform组件编写添加页面 模板的继承 &#xff08;1&#xff09;先写一个页面模板————这个案例中的模板基本上就是一个…

Python 正则表达式1 函数基础

正则表达式主要函数 注&#xff1a;表达式指正则表达式&#xff0c;字符串指待处理文本。 函数名称概要re.match()匹配检查字符串是否符合表达式&#xff0c;返回Match对象re.search()搜索搜索字符串是否包含表达式&#xff0c;返回Match对象re.findall()查询查询字符串所有符…

Web Workers 介绍

Web Workers 是一种在 Web 页面中运行 JavaScript 代码的方式&#xff0c;它允许你在后台线程上运行脚本&#xff0c;而不影响页面的性能。这意味着你可以执行计算密集型任务&#xff0c;而不会造成主线程的阻塞或页面的冻结。 场景 数据处理&#xff1a;对大量数据进行排序、…

最新springboot家乡特色推荐系统

采用技术 最新springboot家乡特色推荐系统的设计与实现~ 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SpringBootMyBatis 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 页面展示效果 系统功能 系统首页 用户注册 文章分享 个人中心 管理员模…

B站广告投放开户的基本费用?

哔哩哔哩&#xff08;B站&#xff09;作为国内领先的年轻人文化社区与视频平台&#xff0c;凭借其独特的文化氛围和庞大的Z世代用户基础&#xff0c;成为品牌营销不可忽视的战场。对于意欲在这片沃土上播种品牌影响力的商家而言&#xff0c;深入理解B站广告投放的开户流程、费用…