ICML 2024
paper
code
Intro
利用基于次优专家数据的专家策略,通过policy constraint的形式引导智能体的在线优化,同时通过利用在线高质量数据扩展专家数据,并有监督得对专家策略进行矫正。二者交替优化实现目标策略的迭代更新
Method
上述定理说明两个问题:1)最优策略下的 J ( π ) J(\pi) J(π)是受限于 J ( π E ) J(\pi_E) J(πE), 2)二者的差异被policy所bound。因此提出得IRPO通过迭代更新 π E \pi_E πE以提高 J ( π E ) J(\pi_E) J(πE)以及将基于KL散度得policy constraint引入目标策略 π \pi π的在线优化.
伪代码第六、七行利用在线轨迹 τ \tau τ数据不断提升演示数据质量,进而保证专家策略的质量。同时这种demonstration boosting的形式,避免over-constraint导致策略探索不足以及primacy bias问题(过度依赖早期数据【paper】)
其中函数 f ( τ ) = R ( τ ) = ∑ t = 0 H − 1 r t f(\tau)=R(\tau)=\sum_{t=0}^{H-1}r_{t} f(τ)=R(τ)=∑t=0H−1rt为累计奖励