GPT助手的训练流程四个主要阶段( GPT Assistant training pipeline )

server/2024/10/18 2:36:56/

GPT助手的训练流程四个主要阶段( GPT Assistant training pipeline )

flyfish

四个阶段

预训练(pre-training)
监督微调(supervised fine tuning, SFT)
奖励建模(reward modeling)
强化学习(reinforcement learning)

每个阶段又分为三个部分(从上到下):数据集、算法和输出的模型。

翻译图,最后附上原图

在这里插入图片描述
GPT助手(GPT Assistant)的训练流程,分为四个主要阶段:预训练(Pretraining)、有监督微调(Supervised Finetuning)、奖励建模(Reward Modeling)和强化学习(Reinforcement Learning)。每个阶段的详细内容如下:
一. 预训练阶段(Pretraining Stage)

  1. 数据集(Dataset):
    原始互联网数据(Raw Internet Data) :使用来自互联网的原始文本数据,数据量达到万亿级别的单词(tokens)。这些数据量巨大但质量较低,涵盖了各种类型的内容。

  2. 算法(Algorithm):
    语言建模(Language Modeling) :模型通过预测文本序列中的下一个token来进行训练。这是标准的自回归语言模型训练方式。

  3. 模型(Model):
    基础模型(Base Model) :经过预训练的基础语言模型,例如GPT、LLaMA、PaLM等模型,经过数月使用成千上万块GPU训练而成。这些模型可以独立部署并用于各种任务。

  4. 备注(Notes):
    使用了数千块GPU,耗费数月时间训练 。这些基础模型是诸如GPT、LLaMA、PaLM等。

二. 有监督微调阶段(Supervised Finetuning Stage)

  1. 数据集(Dataset):
    展示数据(Demonstrations): 由人工编写的理想助手响应数据集,包含约10到10万个问题及其响应。这些数据量相对较少,但质量非常高。

  2. 算法(Algorithm):
    语言建模(Language Modeling) :继续通过语言建模的方式,对模型进行微调,专注于学习这些高质量的问答对。

  3. 模型(Model):
    微调模型(SFT Model): 在基础模型的基础上,通过有监督微调训练得到的模型,例如Vicuna-13B。这些模型可以用于更具体的任务并部署。

  4. 备注(Notes):
    使用了1到100块GPU,耗时数天进行训练 。例如Vicuna-13B模型,经过微调后可以部署。

三. 奖励建模阶段(Reward Modeling Stage)

  1. 数据集(Dataset):
    比较数据(Comparisons): 使用由人工编写的10万到100万个回答的好坏对比数据。这些数据量虽然较少,但质量非常高,用于训练模型区分高质量和低质量的回答。

  2. 算法(Algorithm):
    二值分类(Binary Classification): 训练奖励模型,预测根据用户偏好进行奖励的结果。该模型用来评估和指导模型生成更好的回答。

  3. 模型(Model):
    奖励模型(RM Model): 通过二值分类训练得到的奖励模型,它不能独立部署,主要用于强化学习阶段的模型优化。

  4. 备注(Notes):
    使用了1到100块GPU,耗时数天进行训练 。此模型用于指导强化学习阶段的训练。

四. 强化学习阶段(Reinforcement Learning Stage)

  1. 数据集(Dataset):
    提示数据(Prompts): 使用由人工编写的约1到10万个提示语句进行训练。数据量较少但质量很高,帮助模型在特定上下文中生成更优质的响应。

  2. 算法(Algorithm):
    强化学习(Reinforcement Learning): 使用奖励模型指导生成token,通过生成使奖励最大化的token序列来优化模型的表现。

  3. 模型(Model):
    强化学习模型(RL Model): 经过强化学习训练的最终模型,初始化自微调模型,并利用奖励模型进行优化。这些模型可以在实际应用中部署,如ChatGPT、Claude等。

  4. 备注(Notes):
    使用了1到100块GPU,耗时数天进行训练 。最终模型例如ChatGPT、Claude,可以进行部署和实际应用。

原图

在这里插入图片描述


http://www.ppmy.cn/server/103970.html

相关文章

java编程 斐波拉契数列算法集锦【斐波拉契数列】【下】【集合类】【Stream函数式编程】

斐波那契数列(Fibonacci sequence),又称黄金分割数列,是一个非常经典的递归问题。斐波那契数列的算法描述: 斐波那契数列,一个令人着迷而又充满神秘色彩的数字序列,它以0和1作为起始&#xff…

【Leetcode 1512 】 好数对的数目—— 数组模拟哈希表 与 等差数列求和

给你一个整数数组 nums 。 如果一组数字 (i,j) 满足 nums[i] nums[j] 且 i < j &#xff0c;就可以认为这是一组 好数对 。 返回好数对的数目。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3,1,1,3] 输出&#xff1a;4 解释&#xff1a;有 4 组好数对&#xff0c;…

【C++贪心】2498. 青蛙过河 II

本文涉及知识点 贪心 优化后不需要二分 LeetCode2498. 青蛙过河 II 给你一个下标从 0 开始的整数数组 stones &#xff0c;数组中的元素 严格递增 &#xff0c;表示一条河中石头的位置。青蛙一开始在第一块石头上&#xff0c;它想到达最后一块石头&#xff0c;然后回到第一块…

我的新项目又来咯!

大家好&#xff0c;我是鱼皮&#xff0c;今天分享个我的新项目公开课预告~ 今晚&#xff08;8 月 22 号&#xff09;晚 20 点 &#xff0c;我会继续在 B 站和抖音《程序员鱼皮》账号 直播新项目&#xff0c;依然是从 0 到 1 全程直播开发&#xff01; 这次的项目周期计划 1 个…

web入门php特性web89—104(ctfshow)

一、了解PHP语言 PHP 语法 | 菜鸟教程 PHP&#xff08;全称&#xff1a;PHP&#xff1a;Hypertext Preprocessor&#xff0c;即"PHP&#xff1a;超文本预处理器"&#xff09;是一种通用开源脚本语言。 PHP 是一门弱类型语言&#xff0c;PHP 会根据变量的值&#x…

常见DDoS攻击之零日漏洞Zero-day Attacks

目录 一、什么是零日漏洞Zero-day Attacks 二、零日漏洞是如何转化为零日攻击的 三、常见的零日攻击类型 四、为什么零日攻击很危险 五、著名的零日攻击事件 六、如何降低零日攻击的风险 七、DDoS攻击防御解决方案&#xff08;定制化&#xff09; 7.1 产品优势 7.2 产品…

Vue3学习——Node环境安装(一)

在进行 Vue 项目开发时&#xff0c;必须先安装Node.js。Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境。在 Vue 项目中&#xff0c;我们通常会使用到 Node.js 的 npm&#xff08;Node Package Manager&#xff09;来管理项目所需的各种库和工具&#xff0c;例如 Vi…

光伏电站气象站:提升电站效益,智能监控

随着全球对可持续发展和清洁能源需求的日益增长&#xff0c;光伏发电作为一种清洁、可再生的能源形式&#xff0c;正逐步成为能源结构转型的重要支柱。然而&#xff0c;光伏系统的发电效率直接受到气候条件的影响&#xff0c;如光照强度、温度、湿度、风速及风向等。因此&#…