论文阅读笔记——Diffuser，Diffusion Policy

Diffuser

Diffuser 论文

将轨迹预测问题转化为基于扩散模型的条件生成问题，通过概率框架统一了动力学约束与目标优化。

轨迹表示（state，action）：
$\tau = \begin{pmatrix}s_0s_1……s_T\\a_0a_1……a_T\end{pmatrix}$
Diffuser采用了一种非自回归的轨迹建模方法，它不需要严格遵循时间顺序或马尔可夫性，而是基于局部时间窗口进行预测。如图2所示，模型通过迭代去噪生成轨迹，每一步仅根据邻近的几个状态-动作对（红色区域）来更新当前预测，这种局部处理方式最终能合成出全局一致的完整轨迹。

基于时间局部性的设计原则，Diffuser 的神经网络架构需要满足三个关键条件：
1）采用非自回归的全局轨迹预测方式（通过感受野机制实现）；
2）确保去噪过程的每一步都具有时间局部性；
3）轨迹表示需保持沿规划时维度的等变性，而不要求状态-动作特征间的等变性。
这些条件共同保证了模型既能捕捉局部动态，又能生成全局一致的轨迹。
在这里插入图片描述
如图，采用了堆叠 时序卷积残差块，整体类似 U-Net，将二维空间卷积替换成了一维时序卷积，并且全部由卷积构成可以让输入时域长度可变。
损失函数类比扩散模型可得：
$\mathcal{L}(\theta)=\mathbb{E}_{i,\epsilon,\tau_0}[||\epsilon-\epsilon_\theta(\tau^i,i)||^2]$

将强化学习表示为条件分布

借助控制即推断模型（control-as-inference graphical model），令 $\mathcal{O}_t$ 为一个二元随机变量，将奖励函数转换为概率形式，通过贝叶斯公式可得
$\begin{aligned} p(\mathcal{O}_t=1)=e^{r(s_t,a_t)} \\\tilde{P}_\theta(\tau)=p(\tau|\mathcal{O}_{1:T}=1) \propto p(\tau)p(\mathcal{O}_{1:T}=1|\tau) \end{aligned}$
通过高斯分布近似 $p(\tau^i|\tau^{i+1})$ 可以获得采样结果，类比 Classifier-guidance：

本质上是通过扩散模型的迭代细化过程，在保持轨迹物理合理性的同时优化累积奖励。

$\begin{aligned} p_{\theta}(\tau^{i}|\tau^{i+1}) & =\mathcal{N}(\mu,\Sigma) \\ \log p_{\theta}(\tau^{i}|\tau^{i+1}) & =-\frac{1}{2}(\tau^{i}-\mu)^{T}\Sigma^{-1}(\tau^{i}-\mu)+C \end{aligned}$
在 $x_t=\mu$ 泰勒展开得到：
$\begin{aligned} &logp(\mathcal{O}_{1:T}|\tau^{i}) \approx logp(\mathcal{O}_{1:T}|\tau^{i})|_{\tau^{i}=\mu}+(\tau^{i}-\mu)\nabla_{\tau^{i}}logp(\mathcal{O}_{1:T}|\tau^{i})|_{\tau^{i}=\mu}=(\tau^i-\mu)g+C_1 \\ &g=\nabla_{\tau^i}logp(\mathcal{O}_{1:T}|\tau^i)|_{\tau^i=\mu}=\sum_{t=0}^T\nabla_{s_t,a_t}r(s_t,a_t)|_{(s_t,a_t)=\mu_t}=\nabla\mathcal{J}(\mu) \end{aligned}$
$\begin{aligned} logp((\tau^{i}|\tau^{i+1})p(\mathcal{O}_{1:T}|\tau^{i})) & \approx-\frac{1}{2}(\tau^{i}-\mu)^{T}\Sigma^{-1}(\tau^{i}-\mu)+(\tau^{i}-\mu)g+C_{2} \\ & =-\frac{1}{2}(\tau^i-\mu-\Sigma g)^T\Sigma^{-1}(\tau^i-\mu-\Sigma g)+\frac{1}{2}g^T\Sigma g+C_2 \\ & =-\frac{1}{2}(\tau^{i}-\mu-\Sigma g)^{T}\Sigma^{-1}(\tau^{i}-\mu-\Sigma g)+C_{3} \\ & =logp(z)+C_4,z\sim\mathcal{N}(\mu+\Sigma g,\Sigma) \end{aligned}$
在这里插入图片描述

Diffusion Policy

Diffusion Policy 论文
在这里插入图片描述

显式策略（a）直接输出确定性动作或参数化分布（如高斯混合），计算高效但难以建模复杂多模态动作；
隐式策略（b）通过能量函数定义动作概率，需迭代优化生成动作，理论表达能力强但训练不稳定且计算代价高；
扩散策略（c）创新性地将动作生成转化为条件去噪过程，通过噪声预测网络学习梯度场并配合随机采样，兼具多模态建模、高维序列输出和训练稳定性三重优势.

将 Diffuser 中 $p(A_t,O_t)$ 使用 DDPM 改进为 $p(A_t|O_t)$ ，无需像 Diffuser 显示输出 state，仅输出 action sequence，保证动作上时间一致性，防止单个动作输出导致的摇摆不定。
传统 EBM 建模：
$p(x)=\frac{e^{-E(x)}}{Z} \quad Z=\int e^{-E(x)}dx \qquad \qquad (1)$
其中归一化常数 $Z$ 因为高维积分难解，故而选择学习其梯度场 $\Delta_x\log p(x)$
采用 Langevin 动力学采样，迭代执行：扩散模型的噪声预测 $\epsilon_\theta$ 实际隐式建模了 $\nabla_x\log p(x)$
$x_{t+1}=x_t+\eta\nabla_x\log p(x_t)+\sqrt{2\eta\epsilon_t} \qquad \qquad (2)$
DP：
基于 EMB 表示动作分布：
$p_\theta(\mathbf{a}|\mathbf{o})=\frac{e^{-E_\theta(\mathbf{o},\mathbf{a})}}{Z(\mathbf{o},\theta)} \qquad \qquad (3)$
为了训练用于隐式策略的 EMB，使用 infoNCE 风格损失函数，相当于式（3）的负对数似然：
$\mathscr{L}_{infoNCE}=-\log(\frac{e^{-E_{\theta}(\mathbf{o},\mathbf{a})}}{e^{-E_{\theta}(\mathbf{o},\mathbf{a})}+\sum_{j=1}^{N_{neg}}e^{-E_{\theta}(\mathbf{o},\widetilde{\mathbf{a}}^{j})}}) \qquad \qquad (4)$
通过建模相同动作分布的得分函数，避免了 $Z(a,\theta)$ 的估计问题：
$\nabla_\mathbf{a}\log p(\mathbf{a}\mid\mathbf{o})=-\nabla_\mathbf{a}E_\theta(\mathbf{a},\mathbf{o})-\underbrace{\nabla_\mathbf{a}\log Z(\mathbf{o},\theta)}_{=0}\approx-\varepsilon_\theta(\mathbf{a},\mathbf{o})$
在这里插入图片描述