【扩散模型】5、Diffusion models beat GAN | 使用类别引导图像生成

在这里插入图片描述

论文：Diffusion models beat GAN on image Synthesis

代码：https://github.com/openai/guided-diffusion

出处：OPENAI | NIPS2021

时间：2021

贡献：

在本文章之前，扩散模型生成的图片已经非常逼真了，但是 inception score（IS FID等）不如GAN，如何提供一些人为指导来帮助模型采样和学习，提高分数和采样速度就是本文的出发点
作者引入了 classifier guidance 模式，将扩散模型变成了 class-conditional 任务，使用分类梯度来指导扩散模型的生成，平衡了多样性和保真性，降低了扩散模型的采样时间，同时能提高高分辨率情况下的采样效果

一、背景

在近几年来，生成式模型已经能生成类似人类的自然语音、声音、音乐，也能生成高质量的图像

GAN[19] 在当时来说是很多图像生成任务的 SOTA，其评判标准都是例如 FID、Inception Score、Precision 等简单标准

但这些标准很难完全捕捉到图像之间的差异，而且 GAN 也被证明捕捉到的差异性比很多 likelihood-based 方法能够捕捉到的更少一些，而且 GAN 比较难以训练，一旦没有仔细的设置参数和规则，就容易崩塌

扩散模型就是 likelihood-based 方法的一种，其通过逐步从图像信号中移除噪声来生成图片，其训练的目标函数可以被看做一个重参数化的变分下届，扩散模型在 CIFAR-10 上已经得到了 SOTA，但是在 LSUN 和 ImageNet 这些比较难的数据集上比 GAN 稍微落后一点。

作者认为，扩散模型和 GAN 之间的差距主要由于下面两个因素，也是基于这两个因素，作者对 diffusion model 进行了改进：

GAN 的模型结构已经被探索和改进了很多了
GAN 能更好的平衡多样性和保真度，产生高质量的样本，但不覆盖整个分布

在这里插入图片描述

二、方法

2.1 扩散模型回顾

扩散模型是通过从一个渐进加噪声的逆过程来采样的，也就是说，最开始的时候从噪声 $x_T$ 中开始采样，然后逐步得到噪声更少的 $x_{T-1}$ 、 $x_{T-2}$ … ，直到得到最终的采样结果 $x_0$

扩散模型就是在学习如何从 $x_t$ 得到上一时刻的 $x_{t-1}$ ，扩散模型可以被建模为 $\epsilon_{\theta}(x_t, t)$ ，表示预测到的当前时刻的噪声，训练目标函数是 $||\epsilon_{\theta}(x_t, t) - \epsilon||^2$ ， $\epsilon$ 是真实噪声