ChatGPT训练流程

news/2025/1/22 2:07:53/

图源:State of GPT - Microsoft Build

在这里插入图片描述
笔者翻译上图如下:
请添加图片描述

阶段子阶段目标备注
Pre-Training--------语言建模
Instruction Finetuning---------让模型能够理解自然语言指令
RLHFReward Modeling奖励建模,用来代替人工打分,降低标注成本奖励模型是用来建模强化学习的一个组件
RLHFReinforcement Learning强化学习建模,通过强化学习的方式训练模型输出奖励最大的文本,即更符合人类偏好的文本

强化学习建模过程如下:

  1. 将指令精调后的大语言模型作为Agent,agent的action即给定输入文本 i i i进入 S t a t e State State S i S_i Si后的文本 O u t p u t i Output_i Outputi
  • 所有可能输入的文本构成了agent的状态空间
  • 所有可能输出的文本构成了agent的动作空间
  1. 奖励模型作为Environment对模型输出进行打分,将分数作为奖励。

注:

  1. 二元分类说法并不准确,原始目标是希望对两个生成的回复进行打分即两者之间按更符合人类预期进行比较,胜出的回复应该得到更多的分数,亦即获得更大的奖励。或者也可以认为是在两者之间做分类,将更符合人类预期的筛选出来,但前者是更加准确的描述。
    在这里插入图片描述
    图源:cs224n-2023-lecture11-prompting-rlhf.pdf

  2. 奖励模型是用来实现强化学习的一个辅助模型,可以理解为强化学习建模中的环境(Environment)

文章来源:https://blog.csdn.net/Solo95/article/details/131638614
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ppmy.cn/news/810509.html

相关文章

WebStorm配置代码模板【以vue模板为例,提供vue代码模板】

配置过程 引言 为了便于开发,提高生产效率,我们通常会复制粘贴一些共同代码,在WebStorm中,可以将这些共同代码制作成模板,在使用的时候,只需要输入关键字点击按键即可将模板的代码粘贴到代码文件中&#…

淘宝双十一预售

昨晚8点,淘宝双十一预售,导致淘宝服务器崩溃。

支付宝/云闪付个人免签

写写前段时间个人琢磨的个人免签方法! 1支付宝转账不能修改金额备注模式: alipays://platformapi/startapp?appId20000123&actionTypescan&biz_data{“s”: “money”,“u”: “2088312838048113”,“a”: “1”,“m”:“备注123456”} 将该链接生成二维码,,到时用户支…

2019.11.12

2019.11.12 wf wave.open(file_name, wb) # wf wave.open("sine.wav", wb) wf.setnchannels(channel_num) wf.setframerate(framerate) wf.setsampwidth(sample_width) for i in sine_wave:data struct.pack(<h, int(i))wf.writeframesraw(data) wf.close()

iOS 刘海屏适配(iPhoneX,iPhone11,iPhone12)

make.top.equalTo(view).offset(15 (self.navigationController?.navigationBar.height)! UIApplication.shared.statusBarFrame.height)iOS适配iPhoneX/iphone11/iphone12 导航栏高度 (刘海屏幕) iOS刘海屏适配&#xff0c;iPhoneX、iPhone12系列导航栏高度&#xff0c;刘海…

计算机系统如何恢复出厂设置路由器,斐讯p.to怎么恢复出厂设置?-斐讯路由器设置...

家里路由器是斐讯的&#xff0c;登录地址是&#xff1a;p.to 这个路由恢复出厂设置&#xff0c;应该怎么操作&#xff1f; 答&#xff1a;其实不管什么牌子的家用无线路由器&#xff0c;恢复出厂设置的方法都有2种&#xff0c;如下所示&#xff1b;以p.to作为登录地址的斐讯路由…

小米11和小米10至尊版纪念版哪个好

小米11:搭载最新一代三星的AMOLED屏幕&#xff0c;120Hz屏幕刷新 小米10至尊纪念版采用一块6.67英寸AMOLED材质的10bit原色屏&#xff0c;支持刷新率120Hz&#xff0c;触控采样率也提升至240Hz&#xff0c;操作响应更快&#xff0c;前后双传感器设置&#xff0c;解决传统自动亮…

斐讯路由器怎样设置虚拟服务器,斐讯wifi路由器怎样设置

设置无线路由器的方法步骤如下&#xff1a; 1、进入路由器地址&#xff0c;连接好无线路由器后&#xff0c;在浏览器输入在路由器看到的地址&#xff0c;一般是192.168.1.1。 2、输入相应的账号密码&#xff0c;进入后会看到输入相应的帐号跟密码&#xff0c;一般新买来的都是a…