1. 概述 扩散模型为公众所知的一个主要原因是Stable Diffusion(SD)的推出展现出了远超以往的图像合成效果,而SD的主要技术就是Latent Diffusion Model(LDM)。 实际上,LDM的核心idea非常简单: 为了确保生成质量,LDM尽可能提升去噪模型的规模。提升模型规模往往也会同步导致计算开销的增加,进而导致生成的效率大幅降低。为了克服该负面影响,LDM训练一个自编码器,将图像进行压缩表征,然后在压缩了数据维度的特征空间中进行扩散模型的训练。自编码器的encoder部分负责压缩图像的数据维度,而decoder负责将图像恢复出来。训练时,自然图像用encoder变换为压缩后的潜变量 z z