high-resolution image synthesis with latent diffusion models

news/2025/1/19 21:06:50/

如何通俗理解扩散模型? - 知乎泻药。实验室最近人人都在做扩散,从连续到离散,从CV到NLP,基本上都被diffusion洗了一遍。但是观察发现,里面的数学基础并不是模型应用的必须。其实大部分的研究者都不需要理解扩散模型的数学本质,更需要的是对…https://zhuanlan.zhihu.com/p/563543020Stable Diffusion原理解读 - 知乎引言最近大火的AI作画吸引了很多人的目光,AI作画近期取得如此巨大进展的原因个人认为有很大的功劳归属于Stable Diffusion的开源。Stable diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文…https://zhuanlan.zhihu.com/p/583124756

 ​​​​​Jay Alammar 再发新作:超高质量图解 Stable Diffusion ,看完彻底搞懂「图像生成」原理 - IT之家还记得火爆全网的图解 Transformer 吗?最近这位大佬博主 Jay Alammar 在博客上对大火的 Stable Diffusion 模型也撰写了一篇图解,让你从零开始彻底搞懂图像生成模型的原理,还配有超详细的视频讲解!https://www.ithome.com/0/668/981.htm

【生成模型】Stable Diffusion原理+代码_杀生丸学AI的博客-CSDN博客Stable diffusion是一个基于(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。具体来说,得益于的计算资源支持和在LAION-5B的一个子集数据支持训练,用于文图生成。通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文图生成能够在消费级GPU上,在10秒级别时间生成图片。目前,Stable Diffusion发布了v2版本。https://blog.csdn.net/qq_45752541/article/details/129082742 stable diffusion的出现极大的推动了文生图,图生图等领域的进展,我之前也解析过dalle2,文生图领域目前的论文还是非常多的,stable diffusion整体上最大的贡献还是极大的加速了diffusion的落地,扩散模型,是vae的延续,ae中的v其实就是通过kl散度来向ae中添加噪声,扩散则是就这个加噪的过程和马尔科夫过程关联起来,将加噪分步了。stable diffusion基于latent diffusion model,首先需要训练一个自编码器,包括一个编码器和一个解码器,利用编码器对图片进行压缩,然后在潜在表示空间上做diffusion操作,最后利用解码器恢复到原始像素空间即可。称之为感知压缩perceptual compression。在潜在表示空间上做diffusion操作其主要过程和标准的扩散模型没有太大的区别,所用到的扩散模型具体实现为time-conditional unet。论文为diffusion操作引入了条件机制,通过cross-attention的方式来实现多模态训练,使条件图片生成也可以实现。

结合上面的材料稍微解析一些diffusion。

上面这个是vae,vae的最大问题是变分后验,在vae中,我们先定义了右边蓝色的生成器,再学一个变分后验来适配这个生成器,先验分布是标准高斯分布。vae的生成器,是将标准高斯映射到数据样本,vae的后验是将数据样本映射到标准高斯(学出来的)。我现在想要设计一种方法A,使得A用一种简单的变分后验将数据样本映射到标准高斯,并且使得A的生成器,将标准高斯映射到数据样本,注意,因为生成器的搜索空间大于变分后验,vae的效率远不及A方法,因为A是学一个生成器(搜索空间大),所以可以直接模仿这个后验分布的一小步,A方法就是括但模型核心思路:定义一个类似于变分后验的从数据样本到高斯分布的映射,然后学一个生成器,这个生成器模仿我们定义的这个映射的每一小步。vae是数据样本->高斯->数据样本,扩散是数据样本->一小步一小步的扩散->高斯->去噪->数据样本。

abstract:通过将图片合成过程分解为顺序去噪自编码器(a sequential application of denosing autoencoders),diffusion models实现了广泛的应用。此外,dms允许一种引导机制来控制图像生成过程无须训练。但是在像素空间中运行对算力要求过高。

1.introduction

        高分辨率,复杂自然场景下的图像合成目前是被scaling up likelihood-based models所主导,这些模型可能在自回归transformer中有上亿参数量。对比Gans已被证明主要局限于具有相对有限可变性的数据,他们的对抗学习过程不容易扩展到建模复杂的多模态分布。dms属于基于似然的模型类别。训练一个dms通常需要数百个gpu days,150-1000 V100 days。

        任何一个基于似然的模型,学习大致可以分为两个阶段。1.是感知压缩阶段,它会去除高频细节,但仍然学习很少的语义变化,2.实际生成模型学习数据的语义和概念组成(语义压缩)。我们将训练分为两个阶段,首先训练一个自动编码器,它提供一个低维的表示空间,在感知上等同于数据空间,其次在学习的潜在空间上训练dm,将生成模型成为潜在扩散模型ldm。这种方式的优点在于我们只需要训练通用的自动编码器一次,就可以重复用于多次dm训练。

2.methods

2.1 perceptual image compression

        由此可知,基于感知压缩的扩散模型的训练本质上是一个两阶段训练的过程,第一阶段需要训练一个自编码器,第二阶段才需要训练扩散模型本身。在第一阶段训练自编码器时,为了避免潜在表示空间出现高度的异化,作者使用了两种正则化方法,一种是KL-reg,另一种是VQ-reg,因此在官方发布的一阶段预训练模型中,会看到KL和VQ两种实现。在Stable Diffusion中主要采用AutoencoderKL这种实现。

2.2 latent diffusion models

扩散模型是一个时序去噪自编码器,其目标是根据输入xt去预测一个对应去噪后的变体,xt是输入x的噪声版本。而潜在扩散模型中引入了预训练的感知压缩模型,它包括一个编码器和一个解码器,这样在训练时就可以用编码器得到zt,从而让模型在潜在表示空间中学习。与高维空间比,降维空间更适合基于似然的生成模型,因为1.可以专注于数据的重要语义,低维空间中高频的细节被抽象掉了,2.在低维空间中可以进行更有效的计算。

2.3 条件机制

后续就是作者的一系列实验了,整体来说作者基于latent的先验自编码器,训练一个dm,发现这样做的效果也非常好。

3.图示


http://www.ppmy.cn/news/387337.html

相关文章

【跨模态】【对比学习】CLIP:文本监督CV的预训练(2021)

文章目录 前言一、整体架构1.训练2.测试(迁移学习zero shot)3.prompt engineering and ensembling 二、实验1.few-shot与zero-shot的对比2.Representation Learning3.模型的泛化性 三、局限性和不足四、拓展应用:DALL-E 与 DALL-E21.DALL-E拓…

饥荒联机版MOD-杀生丸介绍

饥荒联机版杀生丸MOD 角色特性妖力系统与不妖璧角色技能 专属科技与专属道具朴仙翁四魂之玉四魂之玉碎片&四魂之玉 四魂系统不妖璧 专属装备铁碎牙天生牙斗鬼神丛云牙爆碎牙双魂共鸣神武月战无炎 直灵御魂 专属机制——回响专属头领怪物龙骨精麒麟丸 专属料理 大家好&#…

简要介绍 | OOD目标检测:背景,研究现状,挑战和未来

OOD目标检测:背景,研究现状,挑战和未来 1. 引言 在计算机视觉领域,目标检测任务一直是研究的热点。然而,大多数现有的目标检测方法在面对 开放环境中的未知类别(Out-Of-Distribution, OOD)时性…

这8道接口测试面试题

接口测试常见的问题了。 大家乍一看! 接口测试面试题 这几个问题,能答出来几个?有没有8个都能够完美的答出来的?在留言区打出你的数字。(0~8) 这些问题你回答起来,不要吞吞吐吐只说几个关键字…

攻略 | 如何拿下奖金534万的全国人工智能大赛?

全国人工智能大赛已连续成功举办三届,累计吸引全球20个国家、1万多支队伍参与竞技,已成为人工智能领域参与规模和影响力都名列前茅的顶级赛事。作为头部科技企业、高等院校和科研院所的链接平台,大赛在促进产学研融合、推动多项成果落地方面成…

代码随想录二刷day22 |二叉树之 235. 二叉搜索树的最近公共祖先 701.二叉搜索树中的插入操作 450.删除二叉搜索树中的节点

235. 二叉搜索树的最近公共祖先 题目链接 解题思路&#xff1a;讨论 中节点 > p && 中节点 < q 或者 中节点 > q && 中节点 < p&#xff0c;其余的情况的最近公共祖先就是根节点。 使用递归三部曲 确定递归函数返回值以及参数 参数就是当前节点…

重装系统后没有声音

重装win10_64系统后电脑没有声音&#xff0c;尝试了下面各种方法&#xff1a; 1. 下载驱动人生、驱动精灵、联想官网驱动管理&#xff0c;没有解决&#xff1b; 2. 官网下载声卡驱动及热键驱动&#xff0c;安装及重启后&#xff0c;问题依然&#xff1b; 3. 重启声卡相关服务…

X3850 X5安装ESXI6.0U3需要手动加载LPe11000驱动

几台号的X3850 X5服务器Vmware Vsphere&#xff0c;查了兼容性列表&#xff0c;此设备支持到6.0U3。安装完系统准备挂载后端DS5020存储的时候发现未识别到FC-HBA卡&#xff0c;重启进BIOS查看此卡IBM 备件号&#xff1a;42C2069&#xff0c;实际为Emulex型号&#xff1a;LPe110…