WGAN算法

Wasserstein GAN (WGAN) 是一种改进的生成对抗网络（GAN），由 Arjovsky 等人在 2017 年提出，用于解决原始 GAN 中的训练不稳定性和模式崩溃（Mode Collapse）问题。WGAN 的核心思想是使用Wasserstein 距离（也叫 Earth Mover’s 距离，EM 距离）来度量生成分布和真实分布之间的距离，代替原始 GAN 使用的 Jensen-Shannon (JS) 散度。

1. 原始 GAN 的问题

在原始 GAN 中，生成器 $G$ 和判别器 $D$ 通过博弈论的方式进行对抗性训练，目标是让 $G$ 生成的假样本与真实样本尽可能相似，而 $D$ 则要尽可能区分开真假样本。GAN 的损失函数基于交叉熵，具体公式如下：

判别器损失：
$L_D = -\mathbb{E}_{x \sim P_{data}}[\log D(x)] - \mathbb{E}_{z \sim P_z}[\log (1 - D(G(z)))]$
生成器损失：
$L_G = -\mathbb{E}_{z \sim P_z}[\log D(G(z))]$

在训练过程中，GAN 使用的 Jensen-Shannon 散度（JS 散度）在两个分布不重叠的情况下为常数，这会导致生成器梯度消失，造成训练不稳定，模型难以收敛。此外，原始 GAN 经常会出现模式崩溃问题，即生成器只能生成一小部分样本，不能涵盖真实数据分布的所有模式。

2. WGAN 的改进：使用 Wasserstein 距离

WGAN 的关键改进是用 Wasserstein 距离来替代 JS 散度。Wasserstein 距离度量两个概率分布之间的距离，反映了从一个分布变换到另一个分布所需的最小“代价”，这个代价可以理解为将一个分布的质量搬运到另一个分布的总距离（类似于搬运土堆的工作量，因此也叫 Earth Mover’s 距离）。

Wasserstein 距离的定义：

给定两个概率分布 $P_r$ 和 $P_g$ ，它们的 Wasserstein 距离定义为：
$W(P_r, P_g) = \inf_{\gamma \in \Pi(P_r, P_g)} \mathbb{E}_{(x, y) \sim \gamma} [\|x - y\|]$
其中 $\Pi(P_r, P_g)$ 是所有将 $P_r$ 变为 $P_g$ 的联合分布， $\|x - y\|$ 表示从 $P_r$ 采样的 $x$ 和从 $P_g$ 采样的 $y$ 之间的距离。

Wasserstein 距离具有良好的性质：

可微分：即使生成器和真实分布没有重叠，Wasserstein 距离仍然可以提供有意义的梯度。
更稳定：WGAN 训练过程更加稳定，生成器和判别器的更新更加顺畅，避免了梯度消失问题。

3. WGAN 的损失函数

为了使用 Wasserstein 距离，WGAN 对判别器进行了修改。原始 GAN 的判别器输出为一个二值概率，判别样本是真实的还是生成的。而 WGAN 的判别器不再是输出概率，而是一个评分函数（score function），用来衡量样本的“真实程度”。

在 WGAN 中，判别器被称为批评器（Critic），其损失函数变为：

批评器损失：
$L_C = -\mathbb{E}_{x \sim P_r}[C(x)] + \mathbb{E}_{z \sim P_z}[C(G(z))]$
其中 $C (x)$ 是批评器对真实样本 $x$ 的打分， $C (G (z))$ 是对生成样本的打分。
生成器损失：
$L_G = -\mathbb{E}_{z \sim P_z}[C(G(z))]$

批评器的目标是让 $C (x)$ 尽可能大， $C (G (z))$ 尽可能小，从而拉开真实样本和生成样本的评分差距。

4. 1-Lipschitz 连续性和权重裁剪

为了保证 Wasserstein 距离的计算有效，批评器必须满足1-Lipschitz 连续性。也就是说，对于任何两个输入 $x_1$ 和 $x_2$ ，都要求：
$|C(x_1) - C(x_2)| \leq \|x_1 - x_2\|$
WGAN 通过**权重裁剪（weight clipping）**来强制批评器满足 1-Lipschitz 连续性。即在每次更新批评器的参数后，将权重限制在某个范围内，如 $[- 0.01, 0.01]$ 。虽然权重裁剪是 WGAN 中的一个重要步骤，但在实际应用中，裁剪会导致模型训练变得较为不稳定，因此 WGAN 后来被改进为 WGAN-GP（使用梯度惩罚替代权重裁剪，详见 WGAN-GP 部分）。

5. WGAN 的训练流程

WGAN 的训练流程与标准 GAN 相似，但有几点区别：

批评器更新次数增加：在每次更新生成器之前，批评器通常会进行多次更新（例如 5 次）。这有助于确保批评器能够提供有效的梯度给生成器。
权重裁剪：在更新批评器参数后，对批评器的权重进行裁剪，以保证 Lipschitz 连续性。
生成器更新：当批评器的训练充分后，才会更新生成器。

6. WGAN 的优势

梯度消失问题缓解：WGAN 通过 Wasserstein 距离计算出连续可微的损失，即使生成分布和真实分布几乎不重叠，生成器仍能获得有效的梯度更新。
模式崩溃问题缓解：由于 Wasserstein 距离提供了更精确的分布距离衡量标准，生成器更能学习到数据分布的多样性，从而避免模式崩溃。
训练稳定性提升：WGAN 在训练过程中，生成器和判别器的更新更稳定，不容易出现发散或震荡的问题。

7. WGAN 的不足

权重裁剪问题：虽然权重裁剪保证了 Lipschitz 连续性，但它也可能限制批评器的表示能力，使得训练变得较慢或不稳定。为此，WGAN-GP 提出了用梯度惩罚来代替权重裁剪。

8. WGAN-GP（WGAN with Gradient Penalty）

WGAN-GP 是 WGAN 的改进版本，提出了一种更有效的方式来保证批评器的 1-Lipschitz 连续性。它通过引入梯度惩罚（Gradient Penalty）来强制批评器的梯度满足 Lipschitz 条件，而不是使用权重裁剪。

梯度惩罚项：
$L_{GP} = \lambda \mathbb{E}_{\hat{x} \sim P_{\hat{x}}} \left[ \left( \|\nabla_{\hat{x}} C(\hat{x}) \|_2 - 1 \right)^2 \right]$
其中 $\hat{x}$ 是从生成数据和真实数据的线性插值中采样的， $\lambda$ 是惩罚系数，通常设置为 10。