浅析扩散模型与图像生成【应用篇】(十七)——LDM

ops/2024/10/20 8:46:42/

17. High-Resolution Image Synthesis with Latent Diffusion Models

  该文首次提出在潜在特征空间中的扩散模型LDM,也是大名鼎鼎的Stable Diffusion(SD)模型的基础。不同于之前的扩散模型直接在图像维度上进行扩散和去噪,LDM首先训练了一个自动编码器将图像压缩至一个潜在的特征空间中,并在该低维空间内进行扩散和去噪,最后再通过一个解码器恢复图像维度。这种方法能够大大降低计算的复杂度,提升训练和推理的速度,并且取得了更好的生成效果,已经成为后续许多图像生成方法的基础。
在这里插入图片描述
  在介绍文章的动机时,作者提到之前的扩散模型是直接在图像上进行扩散和去噪的,为了保证计算复杂度处于可以接受的区间,通常只能对小尺寸的图像进行处理,如64 * 64,128 * 128。即便如此,因为需要经过多次的迭代,训练和推理的时间都非常长,训练一个扩散模型往往需要几百个GPU天。但作者发现,图像的压缩过程会经历两个阶段:感知压缩和语义压缩,如上图所示。在感知压缩阶段,图像仅仅损失一些无关紧要的高频细节信息,而在语义压缩阶段,才会对图像的语义性或概念性内容产生影响。
  基于上述洞见,作者首先使用一个自动编码器,将图像进行大幅度压缩,并将其映射到一个潜在特征空间中。根据实验结果,压缩比例在4或8倍时,能够取得最好的生成效果和速度之间的平衡。自动编码器使用感知损失和基于块的对抗目标损失函数进行训练,并且引入了一个KL惩罚作为正则化项,目的是避免潜在特征空间中的方差过大。这里要注意地一点是,经过编码后的特征 z z z仍保持2D的结构,而不是像其他基于Transformer的方法将其转化为1D的特征。作者解释这使得后面的扩散模型能够按照卷积的方式进行处理,更好的利用图像自身的归纳偏置(局部相关性)。
在这里插入图片描述
  得到特征图 z z z后,就可以对其进行一个常规的扩散和去噪处理了。噪声估计模型 ϵ θ \epsilon_{\theta} ϵθ仍采用了U-net结构,但其中的自注意力层改为了Transformer块,即由自注意力层、MLP和交叉注意力层构成的模块,这是为了方便引入其他模态的条件信息。损失函数仍采用了简化的均方差损失,只是将噪声图像 x t x_t xt改为了噪声特征 z t z_t zt, L L D M : = E E ( x ) , ϵ ∼ N ( 0 , 1 ) , t [ ∥ ϵ − ϵ θ ( z t , t ) ∥ 2 2 ] L_{L D M}:=\mathbb{E}_{\mathcal{E}(x), \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_{\theta}\left(z_{t}, t\right)\right\|_{2}^{2}\right] LLDM:=EE(x),ϵN(0,1),t[ϵϵθ(zt,t)22]经过 T T T次的去噪处理后,得到重建的潜在特征 z ~ \tilde{z} z~,再经过一个解码器得到生成图像 x ~ \tilde{x} x~.

图中的重建特征仍使用了 z z z来表示,这里为了与原始输入的特征 z z z区分,使用 z ~ \tilde{z} z~来表示

  为了引入其他的条件信息,如类别标签、文本描述、语义分割图等,作者针对不同形式的条件输入 y y y训练了相应的条件编码器 τ θ ( y ) \tau_{\theta}(y) τθ(y),可以将条件输入转化为特征向量。然后,利用U-net中的交叉注意力层将其与原始的图像特征 z z z进行融合 Q = W Q ( i ) ⋅ φ i ( z t ) , K = W K ( i ) ⋅ τ θ ( y ) , V = W V ( i ) ⋅ τ θ ( y ) Q=W_{Q}^{(i)} \cdot \varphi_{i}\left(z_{t}\right), K=W_{K}^{(i)} \cdot \tau_{\theta}(y), V=W_{V}^{(i)} \cdot \tau_{\theta}(y) Q=WQ(i)φi(zt),K=WK(i)τθ(y),V=WV(i)τθ(y)即交叉注意力层中的Q向量来自图像特征,而K和V向量均来自条件特征。对于文本条件,编码器可选择Bert或者CLIP中的文本编码器;对于布局条件,如边界框,可以对位置坐标和类别进行编码。
  经过训练后,LDM在多个下游任务中都取得了非常好的效果,如图像生成、图像修复、超分提升等。
无条件图像生成
在这里插入图片描述
超分提升:
在这里插入图片描述
图像修复:
在这里插入图片描述
  其中最为重要的应用肯定是文生图模型StableDiffusion,在此基础上又陆续推出了SD-1.1-1.5多个版本的改进模型,大多是对训练数据集,训练周期数,以及编码器的修改。其中SD-XL是一个较大的改进版本,其采用了CLIP ViT-L 和 OpenCLIP ViT-bigG 两个文本编码器,并且将图像的大小和裁剪位置都作为条件信息引入到噪声估计模型中,最后额外单独训练了一个优化器用于高质量高分辨率的图像生成。在SDXL-turbo中,还利用了蒸馏技术,减少了生成过程的迭代次数,提升了生成速度。更加详细的介绍可参考这篇博客:Stable Diffusion ———LDM、SD 1.0, 1.5, 2.0、SDXL、SDXL-Turbo等版本之间关系现原理详解。近期Stability AI公司又发布了最新的SD3模型,其中使用了与Sora同源的DiT模型,但具体的论文和代码尚未公开。


http://www.ppmy.cn/ops/22180.html

相关文章

word 表格 文字 上下居中

问题 word 表格 文字 上下居中 详细问题 笔者进行word 文档编辑,对于表格中的文本内容,如何进行上下居中? 解决方案 步骤1、选中需要进行操作的单元格 步骤2、右键 → \rightarrow →点击表格属性 步骤3、依次点击单元格 → \rightar…

大型零售企业,适合什么样的企业邮箱大文件解决方案?

大型零售企业通常指的是在全球或特定地区内具有显著市场影响力和知名度的零售商。这些企业不仅在零售业务收入上达到了惊人的规模,而且在全球范围内拥有广泛的销售网络和实体店铺。它们在快速变化的零售行业中持续创新,通过实体店、电商平台等多种渠道吸…

如何在小程序中添加图片和视频

在微信小程序中添加图片和视频可以通过特定的组件和属性来实现。 对于添加图片&#xff0c;你可以使用<image>组件。 <view> <image src"图片链接" style"width: 375rpx; height: 375rpx;"></image> </view> 这里&…

vue 跳转页面打开浏览器新窗口或者打开新标签

vue 跳转页面打开浏览器新窗口或者打开新标签 打开浏览器新窗口方法&#xff1a; openNewWindow () {// 打开新窗口let left ((window.screen.width / 2) - 180) / 2 // 新窗口居中let width (window.screen.width / 2) 180 // 新窗口的宽度// 新窗口要设置的参数…

用数据检验函数正确性,matlab2C

数据存取格式 filename1 g.txt; fid1 fopen(filename1,w); for i 1 : length(g)for j1:size(g,2)if(j1)fprintf(fid1,{%.16f,,g(i,j)); elseif(j>1&&j<151)fprintf(fid1,%.16f,,g(i,j)); elsefprintf(fid1,%.16f},\n,g(i,j));endend%fprintf(fid1,\n…

正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-6.5

前言&#xff1a; 本文是根据哔哩哔哩网站上“正点原子[第二期]Linux之ARM&#xff08;MX6U&#xff09;裸机篇”视频的学习笔记&#xff0c;在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。…

Visual Studio Code基础:打开一个编辑器(文件)时,覆盖了原编辑器

相关阅读 VS codehttps://blog.csdn.net/weixin_45791458/category_12658212.html?spm1001.2014.3001.5482 在使用vscode时&#xff0c;偶尔会出现这样的问题&#xff1a;打开了某个编辑器&#xff08;文件&#xff0c;下面统称文件&#xff09;后&#xff0c;再打开其他文件…

Crowd counting 系列NO.1—CSRNet

CSRNet:Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes 声明&#xff1a;博客是用latex写的&#xff0c;所以直接用图片来展示吧&#xff0c;效果是一样的。下载资源网上都很容易搜到&#xff0c;如需下载资源&#xff0c;请留言。