ChatGPT 中的人类反馈强化学习 (RLHF) 实战,看这篇就够了

news/2024/11/21 0:40:05/

团队博客: CSDN AI小组


相关阅读

  • ChatGPT 简介
  • 大语言模型浅探一
  • 关于 ChatGPT 必看的 10 篇论文
  • 从 ELMo 到 ChatGPT:历数 NLP 近 5 年必看大模型

1 前言
在当今数字化的时代,ChatGPT 的火热程度不断升级。ChatGPT 可以处理复杂的语言任务,从而解放人力资源,提高工作效率,减少成本。ChatGPT 的先进技术和广泛应用,使得它成为了当今最炙手可热的人工智能技术之一。无论是企业、学术机构,还是科技爱好者,都对 ChatGPT 的应用前景充满期待。

在这样的背景之下,CSDN AI 团队也想对 ChatGPT 进行简单的复现。根据ChatGPT 官方博客可知,ChatGPT的训练方法与 InstructGPT 的训练方法基本一致 (如图1所示),只是使用的数据集不一样。故在训练方法上,我们主要参考 InstructGPT 进行复现,基础模型使用的是 RWKV,拆分后共包含以下四个阶段:

  • (1) 语言模型预训练 (Language Model Pre-training);
  • (2) 有监督指令微调 (Supervised Fine-Tuning, SFT);
  • (3) 奖励模型的训练 (Reward Modeling, RM);
  • (4) 使用近端策略优化算法进行强化学习 (Proximal Policy Optimization, PPO).

第 (1)、(2) 阶段的 Pre-training 和 SFT 由 @zxm2015 完成,可参考文章 大语言模型浅探一。本文主要介绍第 (3)、(4) 阶段的内容,即人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF)。

! 在这里插入图片描述

图1 InstructGPT 模型的训练过程

2 人类反馈强化学习 (RLHF)
人类反馈强化学习 (RLHF) 是 ChatGPT 中一种用于改善其回答效果的算法。它是一种基于强化学习的方法,通过结合人类反馈来优化 ChatGPT 的回答。

在 RLHF 中,ChatGPT 学习通过和人类用户的交互来提高其回答的质量。当 ChatGPT 生成一个回答时,它会将回答展示给用户并请求用户的反馈。用户可以对回答进行评分,比如“好”、“不错”、“一般”、“差”等。ChatGPT 会将用户的反馈作为奖励或惩罚信号,以此来更新自己的模型,以更好地满足用户的需求。

RLHF 可分为两个部分。第一部分是奖励模型,人类反馈主要就体现在这个地方;第二部分采用近端策略优化算法的强化学习阶段,基于奖励模型的反馈来优化模型,最终得到满足人类偏好的语言模型。下面将对这两个部分进行详细的说明。


http://www.ppmy.cn/news/958795.html

相关文章

ChatGPT原理学习

参考 参考视频 GPT1 曾经2018年BERT很火。其实GPT也有了。 区别:BERT:完形填空:中间扣空了预测;GPT:预测未来 GPT1:先要有个预训练模型,然后基于具体的应用做fine-tune(下游任务做…

采用ChatGPT对强化学习A2C源代码添加注释说明

强化学习中的Actor-Critic算法是一种普遍经常用到的经典算法,Actor-Critic 翻译成“演员—评论家”方法。策略网络 π(a|s;θ) 相当于演员,它基于状态 s 做出动作 a。价值网络 q(s,a;w) 相当于评论家,它给演员的表现打分,量化在状…

ChatGPT 拓展资料: 强化学习-SARSA算法

强化学习是一种机器学习技术,它关注的是在特定环境中,如何最大化一个智能体(agent)的累积奖励(reward)。强化学习算法会根据当前状态和环境的反馈来选择下一个动作,不断地进行试错,从而优化智能体的行为。 SARSA是一种基于强化学习的算法,它可以用于解决马尔可夫决策…

ChatGPT 拓展资料: 强化学习-Gym环境

ChatGPT 拓展资料: 强化学习-Gym环境 Gym是一个广泛使用的开源软件库,它是针对强化学习任务的仿真环境和算法的工具包。它提供了一个标准的界面,使得研究人员可以轻松地使用各种强化学习算法进行模拟和测试。 Gym中包含了各种各样的环境,这些环境模拟了现实世界中的各种问…

ChatGPT 拓展资料: 强化学习-动态规划算法

ChatGPT 强化学习-动态规划算法 强化学习是一种机器学习方法,可以帮助智能体学习如何在一个环境中做出最优的决策。在强化学习中,动态规划是一种解决问题的方法,策略迭代是其中的一种核心技术。 动态规划可以帮助智能体解决包含多个阶段和决策的问题。在这种问题中,每个阶…

chatgpt中的强化学习 PPO

PPO? 强化学习 基本概念 强化学习五要素:智能体、行为、环境、状态、奖励。 先直接将五个要素映射到文本生成任务上: 智能体:生成模型。 行为: 获取当前step token的概率分布,并选取其中一个作为生成的token。 环…

为什么ChatGPT等AI应用使用强化学习而不是监督学习

我也是无意中入了强化学习的领域,因为我原本研究云计算的任务调度,我发现近几年的工作都是基于强化学习的。所以感觉强化学习一定是大趋势,恰好现在ChatGPT这些人工智能产品出现,更是助推了强化学习的风。那么为什么ChatGPT使用强…

RLHF | 想训练ChatGPT?先来看看强化学习+语言模型吧(附源码)

每天给你送来NLP技术干货! 作者简介 作者:何枝 原文:https://zhuanlan.zhihu.com/p/595116794 排版:关于NLP那些你不知道的事 随着最近 ChatGPT 的大火,越来越多人开始关注其中用到的 RLHF(Reinforcement L…