GPT3.5的PPO目标函数怎么来的：From PPO to PPO-ptx

GPT3.5的PPO目标函数怎么来的：From PPO to PPO-ptx

ops/2024/10/18 16:48:46/

给定当前优化的大模型 $\pi$ ，以及SFT模型 $\pi_{SFT}$

原始优化目标为: $\max E_{(s,a)\sim RL}[\frac{\pi(s,a)}{\pi_{SFT}(s,a)}A^{\pi_{SFT}}(s,a)]$

假设型 $\pi$ ，以及SFT模型 $\pi_{SFT}$ 的KL散度很小即 $\frac{\pi(s,a)}{\pi_{SFT}(s,a)}=1$

给定奖励模型 $r(s,a)\in [0,1]$ ,

假设整个事件的时间范围就1步所以 $Q (s, a) = R (s, a) = r (s, a)$

可以得到:

$\max E_{(s,a)\sim RL}[\frac{\pi(s,a)}{\pi_{SFT}(a|s)}A^{\pi_{SFT}}(a|s)] \\=\max E_{(s,a)\sim RL}[\frac{\pi(a|s)}{\pi_{SFT}(a|s)}(Q^{\pi_{SFT}}(s,a)-V^{\pi_{SFT}}(s))]\\=\max E_{(s,a)\sim RL}[\frac{\pi(a|s)}{\pi_{SFT}(a|s)}(r(s,a)-V^{\pi_{SFT}}(s))]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)} V^{\pi_{SFT}}(s)]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}\int_{a} Q^{\pi_{SFT}}(s,a)]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}\int_{a} r(s,a)]\\=\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}]$
此外为了约束模型 $\pi$ 和 $\pi_{SFT}$ 之间不要差得太远还需要使用SFT的数据训练 $\pi$ ，等价于 $\max E_{(s,a)\sim \pi_{SFT}}[\pi(a|s)]$ 。因此优化目标就变成了:
$\max E_{(s,a)\sim RL}[r(s,a)-\frac{\pi(a|s)}{\pi_{SFT}(a|s)}]+E_{(s,a)\sim \pi_{SFT}}[\pi(a|s)]$
这一项和GPT3.5的优化目标基本一致:
在这里插入图片描述

http://www.ppmy.cn/ops/52283.html

相关文章

QML 中宽度、高度与隐式宽度/高度的区别及其应用场景

QML 中宽度、高度与隐式宽度/高度的区别及其应用场景

在 QML 中，width、height 与 implicitWidth、implicitHeight 这几个属性常常令开发者感到困惑。本文将详细介绍它们之间的区别，并说明在何种情况下应使用隐式尺寸以及普通尺寸。基本定义 width 和 height：表示组件/item 的实际尺寸。impli…

阅读更多...

鸿蒙HarmonyOS实战：渲染控制、路由案例

鸿蒙HarmonyOS实战：渲染控制、路由案例

条件渲染简单来说，就是动态控制组件的显示与隐藏，类似于vue中的v-if 但是这里写法就是用if、else、else if看起来更像是原生的感觉效果循环渲染我们实际开发中，数据一般是后端返回来的对象格式，对此我们需要进行遍历&#…

阅读更多...

Word2Vec基本实践

Word2Vec基本实践

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目…

阅读更多...

UniApp 开发微信小程序教程（一）：准备工作和环境搭建，项目结构和配置

UniApp 开发微信小程序教程（一）：准备工作和环境搭建，项目结构和配置

文章目录一、准备工作和环境搭建1. 安装 HBuilderX步骤： 2. 注册微信开发者账号步骤： 3. 创建 UniApp 项目步骤： 二、项目结构和配置1. UniApp 项目结构2. 配置微信小程序修改 manifest.json修改 pages.json 3. 添加首页文件index.vue 示例&…

阅读更多...

人工智能--自然语言处理NLP概述

人工智能--自然语言处理NLP概述

欢迎来到 Papicatch的博客目录 🍉引言 🍈基本概念 🍈核心技术 🍈常用模型和方法 🍈应用领域 🍈挑战和未来发展 🍉案例分析 🍈机器翻译中的BERT模型 🍈情感分析在…

阅读更多...

EndNote 21 for Mac v21.3 文献管理软件安装

EndNote 21 for Mac v21.3 文献管理软件安装

Mac分享吧文章目录效果一、下载软件二、开始安装1、双击运行安装EndNote212、升级三、运行1、打开软件，测试安装完成！！！四、注意事项效果一、下载软件下载软件链接：http://www.macfxb.cn 二、开始安装 1、双击…

阅读更多...

ZCC5429 异步升压芯片

ZCC5429 异步升压芯片

一、产品综述 ZCC5429 芯片是一款自动调频、最高 600KHz 工作频率、高效率、宽输入电压范围的电流模式异步升压（BOOST）芯片，且可调输入限流功能。用户可灵活地通过外部补偿建立动态环路，获得在所有条件下最优瞬态性能。 ZCC5429…

阅读更多...

node通过axios调用realworld接口

node通过axios调用realworld接口

安装axios pnpm install axios调用Realworld接口接口文档如下： https://main--realworld-docs.netlify.app/docs/specs/backend-specs/endpoints const axios require(axios); let token const instance axios.create({baseURL: https://api.realworld.io/…

阅读更多...

最新文章