GPT3.5的PPO目标函数怎么来的:From PPO to PPO-ptx

ops/2024/10/18 16:48:46/

给定当前优化的大模型 π \pi π,以及SFT模型 π S F T \pi_{SFT} πSFT

原始优化目标为: max ⁡ E ( s , a ) ∼ R L [ π ( s , a ) π S F T ( s , a ) A π S F T ( s , a ) ] \max E_{(s,a)\sim RL}[\frac{\pi(s,a)}{\pi_{SFT}(s,a)}A^{\pi_{SFT}}(s,a)] maxE(s,a)RL[πSFT(s,a)π(s,a)AπSFT(s,a)]

假设型 π \pi π,以及SFT模型 π S F T \pi_{SFT} πSFT的KL散度很小即 π ( s , a ) π S F T ( s , a ) = 1 \frac{\pi(s,a)}{\pi_{SFT}(s,a)}=1 πSFT(s,a)π(s,a)=1

给定奖励模型 r ( s , a ) ∈ [ 0 , 1 ] r(s,a)\in [0,1] r(s,a)[0,1],

假设整个事件的时间范围就1步所以 Q ( s , a ) = R ( s , a ) = r ( s , a ) Q(s,a)=R(s,a)=r(s,a) Q(s,a)=R(s,a)=r(s,a)

可以得到:

max ⁡ E ( s , a ) ∼ R L [ π ( s , a ) π S F T ( a ∣ s ) A π S F T ( a ∣ s ) ] = max ⁡ E ( s , a ) ∼ R L [ π ( a ∣ s ) π S F T ( a ∣ s ) ( Q π S F T ( s , a ) − V π S F T ( s ) ) ] = max ⁡ E ( s , a ) ∼ R L [ π ( a ∣ s ) π S F T ( a ∣ s ) ( r ( s , a ) − V π S F T ( s ) ) ] = max ⁡ E ( s , a ) ∼ R L [ r ( s , a ) − π ( a ∣ s ) π S F T ( a ∣ s ) V π S F T ( s ) ] = max ⁡ E ( s , a ) ∼ R L [ r ( s , a ) − π ( a ∣ s ) π S F T ( a ∣ s ) ∫ a Q π S F T ( s , a ) ] = max ⁡ E ( s , a ) ∼ R L [ r ( s , a ) − π ( a ∣ s ) π S F T ( a ∣ s ) ∫ a r ( s , a ) ] = max ⁡ E ( s , a ) ∼ R L [ r ( s , a ) − π ( a ∣ s ) π S F T ( a ∣ s ) ] \max E_{(s,a)\sim RL}[\frac{\pi(s,a)}{\pi_{SFT}(a|s)}A^{\pi_{SFT}}(a|s)] \\=\max E_{(s,a)\sim RL}[\frac{\pi(a|s)}{\pi_{SFT}(a|s)}(Q^{\pi_{SFT}}(s,a)-V^{\pi_{SFT}}(s))]\\=\max E_{(s,a)\sim RL}[\frac{\pi(a|s)}{\pi_{SFT}(a|s)}(r(s,a)-V^{\pi_{SFT}}(s))]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)} V^{\pi_{SFT}}(s)]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}\int_{a} Q^{\pi_{SFT}}(s,a)]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}\int_{a} r(s,a)]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}] maxE(s,a)RL[πSFT(as)π(s,a)AπSFT(as)]=maxE(s,a)RL[πSFT(as)π(as)(QπSFT(s,a)VπSFT(s))]=maxE(s,a)RL[πSFT(as)π(as)(r(s,a)VπSFT(s))]=maxE(s,a)RL[r(s,a)πSFT(as)π(as)VπSFT(s)]=maxE(s,a)RL[r(s,a)πSFT(as)π(as)aQπSFT(s,a)]=maxE(s,a)RL[r(s,a)πSFT(as)π(as)ar(s,a)]=maxE(s,a)RL[r(s,a)πSFT(as)π(as)]
此外为了约束模型 π \pi π π S F T \pi_{SFT} πSFT之间不要差得太远还需要使用SFT的数据训练 π \pi π,等价于 max ⁡ E ( s , a ) ∼ π S F T [ π ( a ∣ s ) ] \max E_{(s,a)\sim \pi_{SFT}}[\pi(a|s)] maxE(s,a)πSFT[π(as)]。因此优化目标就变成了:
max ⁡ E ( s , a ) ∼ R L [ r ( s , a ) − π ( a ∣ s ) π S F T ( a ∣ s ) ] + E ( s , a ) ∼ π S F T [ π ( a ∣ s ) ] \max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}]+E_{(s,a)\sim \pi_{SFT}}[\pi(a|s)] maxE(s,a)RL[r(s,a)πSFT(as)π(as)]+E(s,a)πSFT[π(as)]
这一项和GPT3.5的优化目标基本一致:
在这里插入图片描述


http://www.ppmy.cn/ops/52283.html

相关文章

QML 中宽度、高度与隐式宽度/高度的区别及其应用场景

在 QML 中,width、height 与 implicitWidth、implicitHeight 这几个属性常常令开发者感到困惑。本文将详细介绍它们之间的区别,并说明在何种情况下应使用隐式尺寸以及普通尺寸。 基本定义 width 和 height:表示组件/item 的实际尺寸。impli…

鸿蒙HarmonyOS实战:渲染控制、路由案例

条件渲染 简单来说,就是动态控制组件的显示与隐藏,类似于vue中的v-if 但是这里写法就是用if、else、else if看起来更像是原生的感觉 效果 循环渲染 我们实际开发中,数据一般是后端返回来的对象格式,对此我们需要进行遍历&#…

Word2Vec基本实践

系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目…

UniApp 开发微信小程序教程(一):准备工作和环境搭建,项目结构和配置

文章目录 一、准备工作和环境搭建1. 安装 HBuilderX步骤: 2. 注册微信开发者账号步骤: 3. 创建 UniApp 项目步骤: 二、项目结构和配置1. UniApp 项目结构2. 配置微信小程序修改 manifest.json修改 pages.json 3. 添加首页文件index.vue 示例&…

人工智能--自然语言处理NLP概述

欢迎来到 Papicatch的博客 目录 🍉引言 🍈基本概念 🍈核心技术 🍈常用模型和方法 🍈应用领域 🍈挑战和未来发展 🍉案例分析 🍈机器翻译中的BERT模型 🍈情感分析在…

EndNote 21 for Mac v21.3 文献管理软件安装

Mac分享吧 文章目录 效果一、下载软件二、开始安装1、双击运行安装EndNote212、升级 三、运行1、打开软件,测试 安装完成!!!四、注意事项 效果 一、下载软件 下载软件 链接:http://www.macfxb.cn 二、开始安装 1、双击…

ZCC5429 异步升压芯片

一、产品综述 ZCC5429 芯片是一款自动调频、最高 600KHz 工作频率、高效率、宽输入电压范围的电流模式异步升压(BOOST)芯片,且可调输入限流功能。用户可灵活地通过外部补偿建立动态环路,获得在所有条件下最优瞬态性能。 ZCC5429…

node通过axios调用realworld接口

安装axios pnpm install axios调用Realworld接口 接口文档如下: https://main--realworld-docs.netlify.app/docs/specs/backend-specs/endpoints const axios require(axios); let token const instance axios.create({baseURL: https://api.realworld.io/…