强化学习笔记(5)——PPO

embedded/2025/2/7 3:22:13/

PPO视频课程来源
首先理解采样期望的转换
请添加图片描述

变量x在p(x)分布下,函数f(x)的期望 等于f(x)乘以对应出现概率p(x)的累加
经过转换后变成
x在q(x)分布下,f(x)*p(x)/q(x) 的期望。

起因是:求最大化回报的期望,所以对ceta求梯度

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

具体举例:上述公式计算的流程?如何求一条轨迹的梯度?
我理解就算是概率相乘在这里插入图片描述> 一回合的回报乘以该回合梯度除以该轨迹(s,a,r,s,a…)出现概率
如何求一条轨迹的梯度?
在这里插入图片描述

然后PPO 推倒,对数 概率连乘,等于概率累加

在这里插入图片描述

但这样有问题:用一整个回合的回报来计算梯度,会导致“未来的动作”影响过去的状态,且 优势情况下,惩罚不明显
于是改成:
在这里插入图片描述
在这里插入图片描述
将优势函数 转换成值函数表示,然后写出多步优势函数即推导出GAE在这里插入图片描述
其实就是用走了不同步的Q(s,a)-V(s) ,然后加权
在这里插入图片描述
加负号将最大化期望转成loss函数更新
PPO 使用了一个重要性采样比 在这里插入图片描述
这个比值衡量了新策略和旧策略在选择动作 at时的相对概率

在这里插入图片描述
为了防止:过去参数ceta’ 和 ceta 差距不要太大,有两种衡量方式;
1:KL散度 :这貌似又叫TRPO
2:clip截断防止差的太大

在这里插入图片描述

伪代码
在这里插入图片描述
用old策略网络做动作和环境交互,然后梯度更新,每过K个epochs将old参数复制给new


http://www.ppmy.cn/embedded/160191.html

相关文章

深入解析JUnit中的@ClassRule注解

在Java开发中,JUnit是一个非常流行的单元测试框架,它为开发者提供了强大的工具来编写和执行测试用例。今天,我们来深入探讨一下JUnit中的ClassRule注解,看看它是如何工作的,并通过一个实际的示例来加深理解。 一、Clas…

Vue3学习笔记-Vue开发前准备-1

一、安装15.0或更高版本的Node.js node -v npm -v 二、创建Vue项目 npm init vuelatest 三、Vue项目结构 node_modules: Vue项目运行的依赖文件public:资源文件夹package.json:信息描述文件

uniapp小程序自定义中间凸起样式底部tabbar

我自己写的自定义的tabbar效果图 废话少说咱们直接上代码,一步一步来 第一步: 找到根目录下的 pages.json 文件,在 tabBar 中把 custom 设置为 true,默认值是 false。list 中设置自定义的相关信息, pagePath&#x…

c++ list的front和pop_front的概念和使用案例

在 C 中,std::list 是一种双向链表容器,提供了对序列中元素的快速插入和删除操作。以下是 std::list 容器的 front 和 pop_front 方法的概念和使用案例。 front 概念:front 成员函数返回对 std::list 容器中第一个元素的引用。如果列表为空…

说一下JVM管理的常见参数

Java虚拟机&#xff08;JVM&#xff09;有许多常见参数&#xff0c;用于控制其行为和性能。以下是一些常见的JVM参数及其说明&#xff1a; 1. 内存管理参数 -Xms<size> START 设置初始堆内存大小。例如&#xff0c;-Xms512m表示初始堆大小为512MB。 -Xmx<size>…

SSM开发(九) mybatis多表查询(举例说明)

目录 一、背景 二、一对一查询 三、一对多查询 一、背景 用户表和订单表的关系为,一个用户有多个订单,一个订单只从属于一个用户 mysql表设计: 二、一对一查询 一对一查询的需求:查询一个订单,与此同时查询出该订单所属的用户 实体: @Data public class Order {pr…

Java 进阶 01 —— 5 分钟回顾一下 Java 基础知识

Java 进阶 01 —— 5 分钟回顾一下 Java 基础知识 Java 生态圈Java 跨平台的语言 Java 虚拟机规范JVM 跨语言的平台多语言混合编程两种架构 举例 JVM 的生命周期 虚拟机的启动虚拟机的执行虚拟机的退出 JVM 发展历程 Sun Classic VMExact VMHotSpotBEA 的 JRockitIBM 的 J9 …

04树 + 堆 + 优先队列 + 图(D1_树(D6_B树(B)))

目录 一、学习前言 二、基本介绍 三、特性 1. 从概念上说起 2. 举个例子 四、代码实现 节点准备 大体框架 实现分裂 实现新增 实现删除 五、完整源码 一、学习前言 前面我们已经讲解过了二叉树、二叉搜索树&#xff08;BST&#xff09;、平衡二叉搜索树&#xff08…