RL_PPO

news/2024/11/30 2:45:54/

不同于value-based方法的 q π ( s , a ) q_{\pi}(s,a) qπ(s,a),policy-base方法可以解决连续的动作,因为 π ( a ∣ s ) \pi(a|s) π(as)是一个连续的函数。

策略梯度

image.png

image.png

image.png

image.png
image.png

Proximal Policy Optimization(PPO)

关于[[重要性采样]]

Page1.jpg
Page2.jpg
Page3.jpg
image.png


PPO的两种算法都可以使得收集数据的模型(行为策略)和要更新的模型(目标策略)差距不大。

PPO的优化目标涉及到了重要性采样,可为什么PPO是on-policy呢?

  • 虽然PPO使用了重要性采样,但是只用到了上一轮策略 θ \theta θ’的数据,PPO目标函数中添加了KL约束,行为策略和目标策略非常接近,因此,行为策略和目标策略可以认为是同一个策略,是on-policy

参考

https://datawhalechina.github.io/easy-rl/#/chapter5/chapter5
原论文
PPO实现CarPole-v1
PPO实现BipedalWalker-v3(连续动作)
https://blog.csdn.net/weixin_47471559/article/details/125593870
The 37 Implementation Details of Proximal Policy Optimization
动手学强化学习
动手学强化学习代码实现


http://www.ppmy.cn/news/623301.html

相关文章

XOR Pair

样例解释 1 对于第11个样例,合法的数对如下:(0, 1)(0,1)和(1,0)(1,0)。 对于第22个样例,合法的数对如下:(0, 10)(0,10),(2, 8)(2,8),(3, 9)(3,9),(8, 2)(8,2),(9, 3)(9,3)和(10, 0…

PAT 1010 Radix (25)

先看题目: 这个题目算是比较DT,花了很长时间,提交次数很多,每次都会有测试点没通过,后来网上搜索了一下,有一些特俗边界条件被我们忽略。 1,首先求目标数据进制,这个进制在任何条件…

FPGA之PLL

PLL(Phase Locked Loop)为锁相环。FPGA中的锁相环通常由PFD(鉴频鉴相器)、CP(电荷泵)、LF(滤波器)、VCO(压控振荡器)组成。一般晶体振荡器由于工艺和成本原因…

ptpx_v2

数字IC)低功耗设计入门(二)——功耗的分析 前面学习了进行低功耗的目的个功耗的构成,今天就来分享一下功耗的分析。由于是面向数字IC前端设计的学习,所以这里的功耗分析是基于DC中的power compiler工具;更精…

PCIe TLP详解

PCIe TLP详解 事务层数据包格式: TLP前缀TLP包头数据负载TLP摘要0, 1, 2,3,…H1, H2,…J, J1,J2,…K,K1,K2,… 前缀,这是一个可选的TLP 标头数据有效载荷TLP 摘要 TLP 数据包格式中的信息分布为: TLP 前缀。 标题(必填&#xf…

ThreadPoolExcutor

2、线程池的创建 public ThreadPoolExecutor(int corePoolSize,int maximumPoolSize,long keepAliveTime,TimeUnit unit,BlockingQueue<Runnable> workQueue,ThreadFactory threadFactory,RejectedExecutionHandler handler)corePoolSize&#xff1a; 线程池维护线…

PLL(phase lock loop)

在通信中&#xff0c;PLL应用于同步和解调电路。例如&#xff0c;在FM解调和频移键控中&#xff0c;他们是常用的。除此之外&#xff0c;当想要输入的比特流中恢复时钟时&#xff0c;使用锁相环是很有可能的。此外&#xff0c;在通信系统中&#xff0c;为了抖动和降噪&#xff…

[P4]p4 integrate/resolve/copy

p4 integrate/resolve/copy 目录 p4 integrate/resolve/copy p4 integrate/p4 integ p4 resolve -am或-as参数 p4 copy p4 change p4 labelsync p4 integrate/p4 integ 功能&#xff1a;用于不同stream之间文件的合并&#xff0c;比如把文件 //HC/AT/sim/uvm/ttt.log覆…