SAC算法小结

news/2024/11/23 23:31:01/

算法SAC

  • 基于动态规划的贝尔曼方城如下所示:
    在这里插入图片描述
    则,基于最大熵的软贝尔曼方程可以描述为如下的形式:
    在这里插入图片描述
    可以这么理解soft贝尔曼方程,就是在原有的贝尔曼方程的基础上添加了一个熵项。
    另外一个角度理解soft-贝尔曼方程:
    首先,将熵项作为奖励函数的一部分,写为如下的形式:
    在这里插入图片描述
    然后将这个 r s o f t r_{soft} rsoft带入到贝尔曼方程中去,然后通过进一步的转化形式,就可以得到可以得到如下的形式:
    Q s o f t ( s t , a t ) = r ( s t , a t ) + γ α E s t + 1 ∼ ρ H ( π ( ⋅ ∣ s t + 1 ) ) + γ E s t + 1 , a t + 1 [ Q s o f t ( s t + 1 , a t + 1 ) ] = r ( s t , a t ) + γ E s t + 1 ∼ ρ , a t + 1 ∼ π [ Q s o f t ( s t + 1 , a t + 1 ) ] + γ α E s t + 1 ∼ ρ H ( π ( ⋅ ∣ s t + 1 ) = r ( s t , a t ) + γ E s t + 1 ∼ ρ , a t + 1 ∼ π [ Q s o f t ( s t + 1 , a t + 1 ) ] + γ E s t + 1 ∼ ρ E a t + 1 ∼ π [ − α log ⁡ [ π ( a t + 1 ∣ s t + 1 ) ) ⁡ = r ( s t , a t ) + γ E s t + 1 ∼ ρ [ E a t + 1 ∼ π [ Q s o f t ( s t + 1 , a t + 1 ) α ⁡ log ⁡ ( π ( a t + 1 ∣ s t + 1 ) ) ] ] = r ( s t , a t ) + γ E s t + 1 , a t + 1 [ Q s o f t ( s t + 1 , a t + 1 ) − α log ⁡ [ π ( a t + 1 ∣ s t + 1 ) ) ] \begin{aligned} Q_{s o f t}\left(s_{t}, a_{t}\right) & =r\left(s_{t}, a_{t}\right)+\gamma \alpha \mathbb{E}_{s_{t+1} \sim \rho} H\left(\pi\left(\cdot \mid s_{t+1}\right)\right)+\gamma \mathbb{E}_{s_{t+1}, a_{t+1}}\left[Q_{s o f t}\left(s_{t+1}, a_{t+1}\right)\right] \\ & =r\left(s_{t}, a_{t}\right)+\gamma \mathbb{E}_{s_{t+1} \sim \rho, a_{t+1} \sim \pi}\left[Q_{s o f t}\left(s_{t+1}, a_{t+1}\right)\right]+\gamma \alpha \mathbb{E}_{s_{t+1} \sim \rho} H\left(\pi\left(\cdot \mid s_{t+1}\right)\right. \\ & =r\left(s_{t}, a_{t}\right)+\gamma \mathbb{E}_{s_{t+1} \sim \rho, a_{t+1} \sim \pi}\left[Q_{s o f t}\left(s_{t+1}, a_{t+1}\right)\right]+\gamma \mathbb{E}_{s_{t+1} \sim \rho} \mathbb{E}_{a_{t+1} \sim \pi}[-\alpha \operatorname{\log \left[\pi\left(a_{t+1} \mid s_{t+1}\right)\right)} \\ & =r\left(s_{t}, a_{t}\right)+\gamma \mathbb{E}_{s_{t+1} \sim \rho}\left[\mathbb{E}_{a_{t+1} \sim \pi}\left[Q_{s o f t}\left(s_{t+1}, a_{t+1}\right) \operatorname{\alpha } \log \left(\pi\left(a_{t+1} \mid s_{t+1}\right)\right)\right]\right] \\ & =r\left(s_{t}, a_{t}\right)+\gamma \mathbb{E}_{s_{t+1}, a_{t+1}}\left[Q_{s o f t}\left(s_{t+1}, a_{t+1}\right)-\alpha \log \left[\pi\left(a_{t+1} \mid s_{t+1}\right)\right)\right] \end{aligned} Qsoft(st,at)=r(st,at)+γαEst+1ρH(π(st+1))+γEst+1,at+1[Qsoft(st+1,at+1)]=r(st,at)+γEst+1ρ,at+1π[Qsoft(st+1,at+1)]+γαEst+1ρH(π(st+1)=r(st,at)+γEst+1ρ,at+1π[Qsoft(st+1,at+1)]+γEst+1ρEat+1π[αlog[π(at+1st+1))=r(st,at)+γEst+1ρ[Eat+1π[Qsoft(st+1,at+1)αlog(π(at+1st+1))]]=r(st,at)+γEst+1,at+1[Qsoft(st+1,at+1)αlog[π(at+1st+1))]
    会得出同样的结论。

看上公式的最后一项,以及根据Q和v的关系函数:
Q s o f t ( s t , a t ) = r ( s t , a t ) + γ E s t + 1 , a t + 1 [ Q s o f t ( s t + 1 , a t + 1 ) − α log ⁡ [ π ( a t + 1 ∣ s t + 1 ) ) ] \begin{aligned} Q_{s o f t}\left(s_{t}, a_{t}\right) & =r\left(s_{t}, a_{t}\right)+\gamma \mathbb{E}_{s_{t+1}, a_{t+1}}\left[Q_{s o f t}\left(s_{t+1}, a_{t+1}\right)-\alpha \log \left[\pi\left(a_{t+1} \mid s_{t+1}\right)\right)\right] \end{aligned} Qsoft(st,at)=r(st,at)+γEst+1,at+1[Qsoft(st+1,at+1)αlog[π(at+1st+1))]
Q ( s t , a t ) = r ( s t , a t ) + γ E s t + 1 ∼ ρ [ V ( s t + 1 ) ] Q\left(s_t, a_t\right)=r\left(s_t, a_t\right)+\gamma \mathbb{E}_{s_{t+1} \sim \rho}\left[V\left(s_{t+1}\right)\right] Q(st,at)=r(st,at)+γEst+1ρ[V(st+1)]
对比一下上面的这两个公式,也就是等号右侧应该是相等的,因此,软值函数形式为:

中间证明先略过,还不想看

对应代码部分


http://www.ppmy.cn/news/521321.html

相关文章

黑莓android系统,黑莓Passport运行Android系统

黑莓Passport运行Android系统 前不久黑莓正式发布了银色版Passport,预装了黑莓自家的BlackBerry 10操作系统,不过现在这款黑莓新机运行Android操作系统的谍照和上手视频已经先后出现在了互联网上,难道正处于低谷的黑莓真的打算转投Android来挽…

java游戏黑莓手机,简约而不简单 16款经典黑莓手机小游戏

【IT168 应用】随着 AppStore 和 Android 市场的发展,大家已经逐渐适应在市场中为自己的智能机淘一些自己喜欢的游戏和应用,黑莓其实也提供了这一市场。 尽管国内黑莓的氛围并不如上两种操作系统,但是依旧有很多黑莓的死忠在支持,…

黑莓招聘 BlackBerry Developer Evangelist (based in China)

www.rim.com/careers/ 搜索Developer Relation BlackBerry Developer Evangelist (based in China) Description Research In Motion (RIM), a global leader in wireless innovation, revolutionized the mobile industry with the introduction of the BlackBerry solution …

黑莓开发人员必读资料 - BlackBerry - 开发指南- 手册和指南

下面两个内容是一样的,中文版本翻译的也相当不错。 如果全部浏览一遍太麻烦,那么开发的时候可以随时搜索。 搜索方法:Google啦,比如要在开发指南里面搜索sqlite,你就搜索下面的字符串 开发指南 sqlite site:docs.blac…

黑莓os软件下载_在PC上试用BlackBerry OS

黑莓os软件下载 There’s a wider selection of smart phones and mobile OS’s than ever before, but you can’t just go buy every phone available and try them all out. Here’s how you can test out the latest version of the BlackBerry OS for free on your PC. 智…

BlackBerry 企业成功案例

https://developer.blackberry.com/whyblackberry/stories 例如: 马来西亚政府农业管理,BlackBerry 智能卡读写器 ,蓝牙连接 感触:官员要左手读卡器,右手黑莓手机,有点别扭。最好是读卡器和黑莓手机一体…

黑莓BlackBerry应用程序开发指南

http://hi.baidu.com/welcome2orange/blog/item/30fd60545c8b961a3a2935ba.html http://confach.cnblogs.com/category/36451.html http://www.cnblogs.com/confach/articles/353363.html

黑莓省电模式 for BlackBerry 9900 9930 9850 OS7.1

黑莓9930手机的分辨率是640 x 480,远好于以往的9630/9700 手机480 x 320 的分辨率,当然耗电量也上去了~~~ OS 7.1操作系统上新增了个省电模式,可以让你的黑莓手机待机时间更长。