论文阅读的附录（八）：Understanding Diffusion Models: A Unified Perspective（五）：逐步加噪评分匹配

Understanding Diffusion Models: A Unified Perspective（五）：逐步加噪评分匹配

文章概括
- - 1. Fisher 散度的定义
  - - 问题
  - 2. 数学技巧：积分分部法（Integration by Parts）
  - - 2.1 回顾积分分部法
    - 2.2 多维积分分部公式
  - 3. 重新表达 Fisher 散度的第二项
  - - 3.1 第二项的原始形式
    - 3.2 替换到 Fisher 散度
    - 3.3 最终可优化的目标
  - 4. 为什么重新表达后可以绕过真实得分函数？
  - 5. 示例：一维高斯分布的评分匹配
  - - 5.1 真实得分函数
    - 5.2 模型得分函数
    - 5.3 Fisher 散度展开
  - 6. 总结

文章概括

引用：

@article{luo2022understanding,title={Understanding diffusion models: A unified perspective},author={Luo, Calvin},journal={arXiv preprint arXiv:2208.11970},year={2022}
}

Luo, C., 2022. Understanding diffusion models: A unified perspective. arXiv preprint arXiv:2208.11970.

原文： https://arxiv.org/abs/2208.11970
代码、数据和视频：https://arxiv.org/abs/2208.11970

文章解析原文：
论文笔记（六十三）Understanding Diffusion Models: A Unified Perspective（五）

1. Fisher 散度的定义

Fisher 散度衡量模型得分函数 $s_\theta(x)$ 和真实得分函数 $\nabla \log p(x)$ 的差异：
$D_F(s_\theta, \nabla \log p) = \mathbb{E}_{p(x)} \left[ \| s_\theta(x) - \nabla \log p(x) \|_2^2 \right].$

展开平方项：
$D_F(s_\theta, \nabla \log p) = \mathbb{E}_{p(x)} \left[ \| s_\theta(x) \|_2^2 \right] - 2 \mathbb{E}_{p(x)} \left[ s_\theta(x)^T \nabla \log p(x) \right] + \mathbb{E}_{p(x)} \left[ \| \nabla \log p(x) \|_2^2 \right].$

问题

第三项 $\mathbb{E}_{p(x)} \left[ \| \nabla \log p(x) \|_2^2 \right]$ 与模型 $s_\theta(x)$ 无关，因此可以忽略。
第二项 $\mathbb{E}_{p(x)} \left[ s_\theta(x)^T \nabla \log p(x) \right]$ 涉及真实得分函数 $\nabla \log p(x)$ ，我们无法直接计算。

目标：通过数学技巧，重新表达第二项，从而绕过对 $\nabla \log p(x)$ 的依赖。

2. 数学技巧：积分分部法（Integration by Parts）

2.1 回顾积分分部法

对于任意两个函数 $u (x)$ 和 $v (x)$ ，积分分部公式为：
$\int u(x) \, v'(x) dx = \left[ u(x) v(x) \right] - \int u'(x) v(x) dx.$

我们将其推广到多维情形，涉及梯度和散度（divergence）。

2.2 多维积分分部公式

假设 $u (x)$ 是一个标量函数， $v (x)$ 是一个向量场，则：
$\int u(x) \nabla \cdot v(x) \, dx = \int \nabla u(x) \cdot v(x) \, dx.$

如果 $p (x)$ 是概率密度函数，其积分在边界快速衰减为零，则有：
$\mathbb{E}_{p(x)} \left[ \nabla \cdot v(x) \right] = -\mathbb{E}_{p(x)} \left[ \nabla \log p(x) \cdot v(x) \right].$

3. 重新表达 Fisher 散度的第二项

3.1 第二项的原始形式

目标是重新表达：
$\mathbb{E}_{p(x)} \left[ s_\theta(x)^T \nabla \log p(x) \right].$

利用积分分部公式：
$\mathbb{E}_{p(x)} \left[ s_\theta(x)^T \nabla \log p(x) \right] = -\mathbb{E}_{p(x)} \left[ \nabla \cdot s_\theta(x) \right].$

3.2 替换到 Fisher 散度

将第二项替换后，Fisher 散度变为：
$D_F(s_\theta, \nabla \log p) = \mathbb{E}_{p(x)} \left[ \| s_\theta(x) \|_2^2 \right] + 2 \mathbb{E}_{p(x)} \left[ \nabla \cdot s_\theta(x) \right].$

这是一种可计算的目标函数，因为：

第一个期望项 $\mathbb{E}_{p(x)} \left[ \| s_\theta(x) \|_2^2 \right]$ 只依赖于模型 $s_\theta(x)$ 。
第二个期望项 $\mathbb{E}_{p(x)} \left[ \nabla \cdot s_\theta(x) \right]$ 是散度，模型 $s_\theta(x)$ 的梯度也可计算。

3.3 最终可优化的目标

最终，我们无需知道真实得分函数 $\nabla \log p(x)$ ，即可优化模型 $s_\theta(x)$ ：
$\mathbb{E}_{p(x)} \left[ \| s_\theta(x) \|_2^2 + 2 \nabla \cdot s_\theta(x) \right].$

4. 为什么重新表达后可以绕过真实得分函数？

重新表达后：

$\| s_\theta(x) \|_2^2$ ：完全依赖模型 $s_\theta(x)$ ，直接计算。
$\nabla \cdot s_\theta(x)$ ：是模型的散度，也完全可计算。
原始目标中的 $\nabla \log p(x)$ 被替换掉，因此不再依赖真实数据分布的得分函数。

5. 示例：一维高斯分布的评分匹配

假设数据分布为一维标准正态分布：
$\frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}.$

5.1 真实得分函数

真实得分函数为：
$\nabla \log p(x) = -x.$

5.2 模型得分函数

假设模型得分函数为 $s_\theta(x) = -\theta x$ ，其中 $\theta$ 是待学习的参数。

5.3 Fisher 散度展开

展开 Fisher 散度：
$D_F(s_\theta, \nabla \log p) = \mathbb{E}_{p(x)} \left[ \| s_\theta(x) - \nabla \log p(x) \|_2^2 \right].$

重新表达目标：
$\mathbb{E}_{p(x)} \left[ s_\theta(x)^2 \right] + 2 \mathbb{E}_{p(x)} \left[ \nabla \cdot s_\theta(x) \right].$

具体计算：

$\mathbb{E}_{p(x)} \left[ s_\theta(x)^2 \right] = \theta^2 \mathbb{E}_{p(x)} \left[ x^2 \right] = \theta^2.$
$\nabla \cdot s_\theta(x) = -\theta.$

最终目标：
$D_F(s_\theta, \nabla \log p) = \theta^2 - 2\theta.$

通过优化 $D_F$ ，我们可以得到最优参数 $\theta = 1$ ，使得 $s_\theta(x) = \nabla \log p(x) = -x$ 。

6. 总结

通过积分分部法，Fisher 散度中的真实得分函数 $\nabla \log p(x)$ 被散度项 $\nabla \cdot s_\theta(x)$ 替代。评分匹配无需直接访问 $\nabla \log p(x)$ ，使得在未知真实分布的情况下也能训练得分函数。