Offline：IQL

Offline：IQL

server/2024/9/23 23:32:31/

ICLR 2022 Poster

Intro

部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作，这就容易导致采取了OOD的数据。因此，IQL取消max,，通过一个期望回归算子实现利用数据集中数据去逼近最优的Q。

method

期望回归(Expectile Regression)

$\arg\min_{m_\tau}\mathbb{E}_{x\sim X}[L_2^\tau(x-m_\tau)],$
其中 $L_2^\tau(u)=|\tau-\mathbb{1}(u<0)|u^2.$ 函数如下所示
在这里插入图片描述
最右边的图可以看出，越大的 $\tau$ 使得预测值逼近上界。

IQL

IQL将上述的 $L_2^{\tau}$ 替换掉MSE来优化Q
$L(\theta)=\mathbb{E}_{(s,a,s',a')\sim\mathcal{D}}[L_2^\tau(r(s,a)+\gamma Q_{\hat{\theta}}(s',a')-Q_\theta(s,a))].$
然而上式存在一个问题。 $Q_{\hat{\theta}}$ 中采样的下一个动作具有一定的随机性，即使由较大的target Q也无法代表这是一个最优动作。因此这里来利用状态价值函数去并逼近这个Q:
$L_V(\psi)=\mathbb{E}_{(s,a)\sim\mathcal{D}}[L_2^\tau(Q_{\hat{\theta}}(s,a)-V_\psi(s))].$
采用均值就有效增加鲁棒性。而得到 V 后将通过MSE来优化Q网络：
$L_Q(\theta)=\mathbb{E}_{(s,a,s')\sim\mathcal{D}}[(r(s,a)+\gamma V_\psi(s')-Q_\theta(s,a))^2].$

AWR

价值函数完成优化后便是优化策略。这里采用的是AWR方法
$L_\pi(\phi)=\mathbb{E}_{(s,a)\sim\mathcal{D}}[\exp(\beta(Q_{\hat{\theta}}(s,a)-V_\psi(s)))\log\pi_\phi(a|s)]$

http://www.ppmy.cn/server/36858.html

相关文章

Linux进程通信-信号

Linux进程通信-信号

信号概念信号是 Linux 进程间通信的最古老的方式之一，是事件发生时对进程的通知机制，有时也称之为软件中断，它是在软件层次上对中断机制的一种模拟，是一种异步通信的方式。信号可以导致一个正在运行的进程被另一个正在运行的异…

阅读更多...

【Mac】mac 安装 prometheus 报错 prometheus: prometheus: cannot execute binary file

【Mac】mac 安装 prometheus 报错 prometheus: prometheus: cannot execute binary file

1、官网下载 Download | Prometheus 这里下载的是prometheus-2.51.2.linux-amd64.tar.gz 2、现象解压之后启动Prometheus 启动脚本： nohup ./prometheus --config.fileprometheus.yml > prometheus.out 2>&1 & prometheus.out日志文件&#xff…

阅读更多...

【智能优化算法】海象优化器(Walrus optimizer，WO)

【智能优化算法】海象优化器(Walrus optimizer，WO)

海象优化器(Walrus optimizer，WO)是期刊“EXPERT SYSTEMS WITH APPLICATIONS”（中科院一区 IF 8.3）的2024年智能优化算法 01.引言海象优化器(Walrus optimizer，WO)的灵感来自海象通过接收关键信号(危险信号和安全信号)选择迁徙、…

阅读更多...

[Android]单元测试和模块测试

[Android]单元测试和模块测试

在 Kotlin 开发中，单元测试和模块测试（有时也称为组件测试或服务测试）是两种关键的测试方法，它们帮助开发者确保代码的各个部分独立和整体上都按预期工作。 1.单元测试单元测试是测试软件应用中最小单元（通常是方法…

阅读更多...

【负载均衡在线OJ项目日记】编译与日志功能开发

【负载均衡在线OJ项目日记】编译与日志功能开发

目录日志功能开发常见的日志等级日志功能代码编译功能开发创建子进程和程序替换重定向编译功能代码日志功能开发日志在软件开发和运维中起着至关重要的作用，目前我们不谈运维只谈软件开发；日志最大的作用就是用于故障排查和调试&#x…

阅读更多...

28-代码随想录18四数之和

28-代码随想录18四数之和

18. 四数之和给你一个由 n 个整数组成的数组 nums ，和一个目标值 target 。请你找出并返回满足下述全部条件且不重复的四元组 [nums[a], nums[b], nums[c], nums[d]] （若两个四元组元素一一对应，则认为两个四元组重复）&#xff…

阅读更多...

react antd table 自定义表头功能实现

react antd table 自定义表头功能实现

react antd table 自定义表头功能 Ⅰ- 壹 - 功能展示和使用需求需求描述基于antd table 实现自定义 table 的表头内容排序宽度和顺序等 , 可根据自己的需求自己扩展 github:https://github.com/whqgo/ReactAntdTableCustomHeader 功能展示 Ⅱ - 贰 - 封装思路 Task…

阅读更多...

使用QT开发ROS可视化界面

使用QT开发ROS可视化界面

Q： undefined reference to non-virtual thunk to MyViz A： 该问题主要由于QT中的MOC File没有正确生成，导致虚函数列表出现问题。另外，需要注意虚函数的virtual关键字需要放在类的声明，不能放在类的定义。 qt5_wrap…

阅读更多...

最新文章