A3C算法

news/2024/10/18 22:34:28/

联想下我们之前是怎么算的,

在这里插入图片描述
然后由此构建奖励函数
在这里插入图片描述

又因为这个过程存在着太多的随机性
故我们引入baseline对其进行微调
在这里插入图片描述
并且使用
在这里插入图片描述
来估计偏置值b
再回想下函数Q
在这里插入图片描述

优势函数
函数表达式
在这里插入图片描述
就是在某状态state下,衡量选择某一动作有多好,Q相当于我们得到的结果,V是我们的期望(平均的估计值,根据大数定律,用平均去估计一组数的值是有数学依据的)
这个东西联想导数里面而的一阶损失函数,二阶损失函数,如果A是正的就说明效果不错,方向是很合理的

解读与分析

AC算法要解决的问题
先把之前的算法涉及打分公式给展示下
在这里插入图片描述
如果按照这个公式来的话就是要多进程并行计算两个神经网络对电脑的计算负担非常地大,
那么为了计算A,我就要计算Q和V两个网络了,我们将公式换个写法
在这里插入图片描述
这样写地好处就是只要训练V一个网络了

AC算法地整体计算流程
1获取数据:
在这里插入图片描述
通过策略函数不断地与环境交互得到这些数据,具体地公式表现为
在这里插入图片描述

2前向传播的计算
在这里插入图片描述
3梯度计算
在这里插入图片描述
4更新参数
在这里插入图片描述

这个可不是训练两个网络,是将该网络同时连接两个全连接层
在这里插入图片描述

用于分别计算其对应的目标函数
在这里插入图片描述

简单来说就是在同一个网络中嫁接两个全连接层借此减少计算负担

同时·我们要让它进行多步计算,而不是只计算一步
故公式为
在这里插入图片描述

在公式中还引入了折扣系数。降低其对后续选择的影响(联想K近邻,越近越准)

整体架构.
在这里插入图片描述

在这里插入图片描述

实际上用多进程去做就行

损失函数整理

策略损失函数
在这里插入图片描述
价值网络的损失
在这里插入图片描述

整体损失函数
在这里插入图片描述


在这里插入图片描述


http://www.ppmy.cn/news/714101.html

相关文章

JAVA POI 设置 Word 纸张大小为 A3

JAVA POI 设置 Word 纸张大小为 A3 前言一、示例1、引入pom依赖2、测试 二、解析总结 前言 JAVA POI 设置 Word 纸张大小为 A3 一、示例 例子结合 Hutool 工具类 1、引入pom依赖 <dependency><groupId>cn.hutool</groupId><artifactId>hutool-al…

BOSHIDA DC电源模块在自动化设备的详细应用

BOSHIDA DC电源模块在自动化设备的详细应用 DC电源模块是自动化设备中经常使用的电源设备&#xff0c;它可以将交流电转换成稳定的直流电&#xff0c;以满足自动化设备的电能需求。以下是DC电源模块在自动化设备中的详细应用&#xff1a; 1. 逆变器控制器&#xff1a;DC电源模…

如何合并分区

使用cmd命令合并分区 这里以合并U盘为例&#xff0c;合并电脑硬盘同样的操作。 本教程在Windows 10系统下进行。 ”WinR”打开运行界面&#xff0c;输入”cmd”,打开命令提示符。 在命令提示符窗口下输入”diskpart”,进入diskpart交互环境。 输入”lis dis”,显示所有的磁…

U盘合并分区

引用文章链接 引用文章链接

解决制作系统的U盘被分成两个盘的问题

参考 win7通过DiskGenius来解决U盘被分成两个盘的问题_win7教程_uc电脑园移动版

linux合并优盘分区工具,mhddfs虚拟存储工具:Linux分区合并利器

所讲的 Linux 分区合并&#xff0c;从严格意义上来讲应该叫 Linux 挂载点合并。大家都见多了 Windows 下的分区合并软件&#xff0c;而且 Windows 本身也自带简单的分区合并功能&#xff0c;在大多数情况下可以满足用户的分区合并需求。试想一下&#xff0c;在 Linux 中你有 3 …

将U盘中空闲分区合并到活动分区中

文章目录 1、问题描述2、解决方案2.1 右键点击 “空闲”->“将空闲空间分配给”->“分区&#xff1a;可移动磁盘G”2.2 完成 1、问题描述 4GB的优盘&#xff0c;里面有1.6GB处于空闲状态&#xff0c;寻思如何将这些空闲区域分配到使用的分区中&#xff0c;使用DiskGeniu…

U盘分区如何合并

本方法只在Win7环境下测试通过&#xff0c;其他环境下均没有测试过(xp环境下连U盘都没有显示出来)。 在Win7环境下&#xff0c;点击开始按钮&#xff0c; 输入cmd&#xff0c; 右键点击cmd.exe程序&#xff0c;以管理员身份登录&#xff0c; 然后输入C:\User\Administartor&…