REINFORCE和A2C的异同

news/2025/2/12 0:46:14/

两者的神经网络结构一模一样，都是分为两个网络，即策略神经网络和价值神经网络。但是两者的区别在于价值神经网络的作用不同，A2C中的可以评价当前状态的好坏，而REINFORCE中的只是作为一个Baseline而已，唯一作用就是降低随机梯度造成的方差。

A2C算法的改进：

用multi-step TD target来改进A2C算法，因为之前计算TD target只用到一个奖励，所以是one step TD target。用multi-step TD target就是指计算TD target时里面包含多个奖励。

multi-step TD target就是观测m个transition，然后来计算TD targrt，最后得到修改后的算法：

REINFORCE with Baseline:

步骤：

1.完成一次训练，观测到一条轨迹，包括所有的状态，动作，以及奖励。

2.然后用观测到的奖励来计算回报，是从t时刻开始，所有奖励的加权和，是完全真实观测到的，和TD target是不一样的。

3.计算error，是价值网络的预测值与的差，不是TD error，但是和TD error很像。

4.用策略梯度来更新策略网络。

5.做梯度下降来更新价值网络。

区别：

经过比较A2C和REINFORCE with Baseline的主要区别就是这两步：

http://www.ppmy.cn/news/880855.html

相关文章

Actor-Critic(A2C)算法原理讲解+pytorch程序实现

Actor-Critic(A2C)算法原理讲解+pytorch程序实现

文章目录 1 前言2 算法简介3 原理推导4 程序实现5 优缺点分析6 使用经验7 总结 1 前言强化学习在人工智能领域中具有广泛的应用，它可以通过与环境互动来学习如何做出最佳决策。本文将介绍一种常用的强化学习算法：Actor-Critic并且附上基于pytorch实现的…

阅读更多...

A2C算法原理及代码实现

A2C算法原理及代码实现

本文主要参考王树森老师的强化学习课程 1.A2C算法原理 A2C算法是策略学习中比较经典的一个算法，是在 Barto 等人1983年提出的。我们知道策略梯度方法用策略梯度更新策略网络参数 θ，从而增大目标函数，即下面的随机梯度： Actor-C…

阅读更多...

强化学习算法A2C（Advantage Actor-Critic）和A3C(Asynchronous Advantage Actor-Critic)算法详解以及A2C的Pytorch实现

强化学习算法A2C（Advantage Actor-Critic）和A3C(Asynchronous Advantage Actor-Critic)算法详解以及A2C的Pytorch实现

一、策略梯度算法回顾策略梯度（Policy Gradient）算法目标函数的梯度更新公式为： ▽ R ˉ θ 1 N ∑ n 1 N ∑ t 1 T n ( ∑ t ′ t T n γ t ′ − t r t ′ n − b ) ▽ l o g p θ ( a t n ∣ s t n ) (1) \bigtriangledown \bar{R}…

阅读更多...

Unity 3D 脚本编程与游戏开发学习笔记

Unity 3D 脚本编程与游戏开发学习笔记

学习笔记内容提要Unity脚本概览控制物体移动触发器事件 Unity 基本概念与脚本编程物体、组件和对象创建物体实例——3D射击游戏内容提要全书从建立编程脚本和游戏框架为出发点，逐步阐述游戏开发中的核心概念，核心的物理系统和数学基础，然…

阅读更多...

【Rust 基础篇】Rust 自定义迭代器

【Rust 基础篇】Rust 自定义迭代器

导言在 Rust 中，自定义迭代器可以帮助我们根据特定需求实现符合自己逻辑的迭代过程。自定义迭代器是通过实现 Iterator trait 来完成的。本篇博客将详细介绍如何在 Rust 中自定义迭代器，包括自定义迭代器的定义、必要的方法和一些常见的使用场景。自…

阅读更多...

解“冰刃”的使用方法

解“冰刃”的使用方法

冰刃——IceSWord是一斩断黑手的利刃。它适用于windows 2000/XP/2003操作系统，用于查探系统中的幕后黑手(木马后门)并作出处理，当然使用它需要用户有一些操作系统的知识。　　在对软件做讲解之前，首先说明第一注意事项：此程序运行…

阅读更多...

华硕ROG冰刃6双屏原厂预装Windows11系统工厂恢复带ASUSRecovery恢复功能

华硕ROG冰刃6双屏原厂预装Windows11系统工厂恢复带ASUSRecovery恢复功能

华硕工厂恢复系统 ，安装结束后带隐藏分区以及机器所有驱动软件,奥创文件地址: https://pan.baidu.com/s/1Pq09oDzmFI6hXVdf8Vqjqw?pwd3fs8 提取码:3fs8 文件格式：5个底包(HDI KIT COM MCAFEE EDN) 1个引导工具TLK 支持ASUSRECOVERY型号冰刃7双屏…

阅读更多...

【前端技巧】CSS常用知识碎片（九）

【前端技巧】CSS常用知识碎片（九）

CSS常用知识碎片（九） mask-image属性带有半透明的PNG图像的遮罩效果 .mask-image {mask: no-repeat center / contain;mask-image: url(bird.png); }SVG图形遮罩效果 .mask-image {mask-image: url("data:image/svgxml,%3Csvg viewBox0 0 3232…

阅读更多...

最新文章