InstructGPT:chatGPT的姊妹模型

news/2024/10/18 16:50:42/

1.简介

本文根据2022年《Training language models to follow instructions with human feedback》翻译总结的,文中提出了InstructGPT,从文章标题也可以看出来训练模型采用了人类指导反馈的数据。

因为chatGPT说是InstructGPT的姊妹模型,所以了解下InstructGPT。InstructGPT的第一步训练是基于GPT-3。最终实验结果InstructGPT好于GPT-3。

InstructGPT的构建由下图所示的三个步骤构成。
1)第一步会基于GPT-3训练出来一个Supervised fine-tuning (SFT)模型。第一步的训练数据由我们雇佣的40个标注者根据提示(prompt)编写期望的输出构成(demonstrations)。这些标注者在应聘前会进行筛选测试。训练数据大约有1万3千个训练prompt,来自于API或者标注者手写的。
2)第二步是训练一个Reward modeling (RM)模型,训练数据是模型输入prompt后对应输出的排名(有多个模型输出,也是标注者对其进行的手工排序)。大约有3万3千个训练prompt,来自于API或者标注者手写的。
3)第三步是使用强化学习(Reinforcement learning (RL))针对RM模型优化SFT模型。首先获得一个prompt,然后SFT模型生成一个输出,然后RM模型针对这个输出计算一个奖励,然后这个奖励用来继续更新SFT模型(使用PPO方法)。这步没有使用标注数据,主要是前面两个有使用标注数据。PPO数据只使用了来自API的3万1千个训练prompt.
在这里插入图片描述

我们将来自于人类反馈的强化学习简称为RLHF(reinforcement learning from human feedback):使用人类的偏好作为奖励信号来微调模型。

我们有如下发现:
1)标注者相对于GPT-3的输出更喜欢InstructGPT;
2)相对于GPT-3,InstructGPT在真实性方面有改善;
3)InstructGPT在毒性输出上有小的改善,在RealToxicityPrompts数据上有验证。
4)通过修改我们的RLHF 微调过程,我们可以最小化在公共NLP数据上的衰退表现。
5)我们的模型对于没有产生训练数据的标注者,也有很好的泛化能力。
6)公共NLP数据不能反应我们的语言模型如何使用的。
7)除了对RLHF 微调分布表现好外,InstructGPT对于输入指示也有很好的泛化性。
8)InstructGPT依然会产生错误。比如对于错误的引导输入会产生非期望的输出。

2.数据

下表是第一步训练数据prompt的分类统计。
在这里插入图片描述

3.模型

3.1.RM

Reward modeling (RM)模型)损失函数如下,大体就是比较输入prompt x对应的两个输出y,按照标注的偏好进行训练:
在这里插入图片描述

3.2.RL

我们使用PPO方法微调SFT模型。
为了克服在公共NLP数据上的衰退表现,我们实现混合预训练的梯度到PPO梯度,这种方法我们叫做PPO-ptx,也就是InstructGPT。

损失函数如下:
在这里插入图片描述

4.结果

对API promt的结果。可以看到PPO-ptx(InstructGPT)好于GPT。
在这里插入图片描述

示例

输入prompt,输出结果。有点像问答系统。
在这里插入图片描述


http://www.ppmy.cn/news/950439.html

相关文章

【ChatGPT】ChatGPT的核心算法原理图文解析、大模型训练过程和数据集来源

目录 ChatGPT的核心算法、模型和数据来源 一、引言:ChatGPT的概述与背景

ChatGPT的模型介绍及GO语言实现API

ChatGPT除了大家熟悉的GPT3之外,还有其他辅助模型,比如处理代码的以及有害信息过滤的系统。总的来说是下面三个组成: GPT-3:一组能够理解和生成自然语言的模型 CodexLimited beta:一组可以理解和生成代码的模型&#x…

超越ChatGPT:大模型的智能极限

在此前《大型语言模型的涌现能力》、《ChatGPT进化的秘密》两篇文章中,符尧剖析了大型语言模型的突现能力和潜在优势,大模型所带来的“潜在的”范式转变,并拆解了ChatGPT演进的技术路线图。 在本文中,作者以终为始分析了大模型的智…

ChatGPT基础知识系列之模型介绍

ChatGPT基础知识系列之模型介绍 前面我们已经介绍很多ChatGPT的使用案例了,更多案例可以参考我们下面的文章 ChatGPT使用案例之写代码 ChatGPT使用案例之画思维导图 ChatGPT使用案例之自然语言处理 ChatGPT使用案例之操作Excel ChatGPT使用案例之图像生成 ChatGPT使用案…

ChatGPT概述:从模型训练到基本应用的介绍

ChatGPT概述:从模型训练到基本应用的介绍 目录 本文是对ChatGPT的由来、训练过程以及实际落地场景的解释,主要内容包括如下三个方面: 1、ChatGPT是什么 2、ChatGPT的原理 3、ChatGPT的思考 4、ChatGPT的应用 ChatGPT是什么 ChatGPT可能是近…

ChatGPT模型中的惩罚机制

ChatGPT模型中的惩罚机制 上一篇文章《ChatGPT模型采样算法详解》为大家详细介绍了对文本生成效果至关重要的2种采样方法,以及他们的控制参数temperature和top_p的作用。ChatGPT中,除了采样,还有惩罚机制也能控制文本生成的多样性和创意性。…

ChatGPT背后的模型三兄弟

ChatGPT作为最接近强人工智能的系统,具有强大的信息理解和信息抽象总结能力,在这个信息过剩的时代,为我们提供了一个非常好的智能辅助工具。在我们日常的工作中,怎么充分的利用ChatGPT等类似的智能系统,会给我们生活和…

ChatGPT历代训练模型

开发需要,记录ChatGPT历代模型型号。 text-davinci-003 描述:text-davinci-003是GPT-3系列中最强大的型号。可以执行其他GPT-3型号可以执行的任何任务,通常具有更高的质量、更长的输出和更好的指令遵循。每个请求最多可以处理4,000 tokens。优势&#xf…