RL_PPO

RL_PPO

news/2024/11/30 2:45:54/

不同于value-based方法的 $q_{\pi}(s,a)$ ，policy-base方法可以解决连续的动作，因为 $\pi(a|s)$ 是一个连续的函数。

策略梯度

Proximal Policy Optimization(PPO)

关于[[重要性采样]]

PPO的两种算法都可以使得收集数据的模型(行为策略)和要更新的模型(目标策略)差距不大。

PPO的优化目标涉及到了重要性采样，可为什么PPO是on-policy呢？

虽然PPO使用了重要性采样，但是只用到了上一轮策略 $\theta$ ’的数据，PPO目标函数中添加了KL约束，行为策略和目标策略非常接近，因此，行为策略和目标策略可以认为是同一个策略，是on-policy

参考

https://datawhalechina.github.io/easy-rl/#/chapter5/chapter5
原论文
PPO实现CarPole-v1
PPO实现BipedalWalker-v3（连续动作）
https://blog.csdn.net/weixin_47471559/article/details/125593870
The 37 Implementation Details of Proximal Policy Optimization
动手学强化学习
动手学强化学习代码实现

http://www.ppmy.cn/news/623301.html

相关文章

XOR Pair

XOR Pair

样例解释 1 对于第11个样例，合法的数对如下：(0, 1)(0,1)和(1,0)(1,0)。对于第22个样例，合法的数对如下：(0, 10)(0,10)，(2, 8)(2,8)，(3, 9)(3,9)，(8, 2)(8,2)，(9, 3)(9,3)和(10, 0…

阅读更多...

PAT 1010 Radix (25)

PAT 1010 Radix (25)

先看题目： 这个题目算是比较DT，花了很长时间，提交次数很多，每次都会有测试点没通过，后来网上搜索了一下，有一些特俗边界条件被我们忽略。 1，首先求目标数据进制，这个进制在任何条件…

阅读更多...

FPGA之PLL

FPGA之PLL

PLL（Phase Locked Loop）为锁相环。FPGA中的锁相环通常由PFD（鉴频鉴相器）、CP（电荷泵）、LF（滤波器）、VCO（压控振荡器）组成。一般晶体振荡器由于工艺和成本原因…

阅读更多...

ptpx_v2

ptpx_v2

数字IC）低功耗设计入门（二）——功耗的分析前面学习了进行低功耗的目的个功耗的构成，今天就来分享一下功耗的分析。由于是面向数字IC前端设计的学习，所以这里的功耗分析是基于DC中的power compiler工具；更精…

阅读更多...

PCIe TLP详解

PCIe TLP详解

PCIe TLP详解事务层数据包格式： TLP前缀TLP包头数据负载TLP摘要0, 1, 2,3,…H1, H2,…J, J1,J2,…K,K1,K2,… 前缀，这是一个可选的TLP 标头数据有效载荷TLP 摘要 TLP 数据包格式中的信息分布为： TLP 前缀。标题（必填&#xf…

阅读更多...

ThreadPoolExcutor

ThreadPoolExcutor

2、线程池的创建 public ThreadPoolExecutor(int corePoolSize,int maximumPoolSize,long keepAliveTime,TimeUnit unit,BlockingQueue<Runnable> workQueue,ThreadFactory threadFactory,RejectedExecutionHandler handler)corePoolSize： 线程池维护线…

阅读更多...

PLL（phase lock loop）

PLL（phase lock loop）

在通信中，PLL应用于同步和解调电路。例如，在FM解调和频移键控中，他们是常用的。除此之外，当想要输入的比特流中恢复时钟时，使用锁相环是很有可能的。此外，在通信系统中，为了抖动和降噪&#xff…

阅读更多...

[P4]p4 integrate/resolve/copy

[P4]p4 integrate/resolve/copy

p4 integrate/resolve/copy 目录 p4 integrate/resolve/copy p4 integrate/p4 integ p4 resolve -am或-as参数 p4 copy p4 change p4 labelsync p4 integrate/p4 integ 功能：用于不同stream之间文件的合并，比如把文件 //HC/AT/sim/uvm/ttt.log覆…

阅读更多...

最新文章