DALL-E-2 论文水记

news/2024/12/4 4:24:23/

DALL-E-2 论文水记

模型示意图

在这里插入图片描述虚线上面是 CLIP 的训练流程

虚线下面是文字生成图像的流程。我们有一个 prior 模型和一个 decode 模型。先把 text embeding 输入 prior 模型,得到 image embeding,再把 image embeding 输入 decoder ,得到图像。

decoder 模型

使用diffusion作为decoder,使用的指导信息有 CLIP image embeding (还有文本标题作为可选的附加指导信息)

似乎与GLIDE的结构很相似,他提到他们改变了 GLIDE 的结构,把 CLIP image embeding 投射为四个不同 context 的 token,并且和 GLIDE text encoder 输出的序列接在一起

他们保留了原本 GLIDE 的 text conditioning pathway,期望用它捕获一些 CLIP 漏掉的信息,不过他们发现这样没啥提升。

为了能实现无指导地生成图像,训练过程中有 10% 的概率令 CLIP embedings 为 0(或者一个学到的embeding),有 50% 的概率 dropping 文本标题

超分辨率

为了生成高分辨率的图像,训练了两个 diffusion 上采样模型,一个是 64 × 64 → 256 × 256 64\times64\to256\times256 64×64256×256 ,一个是 256 × 256 → 1024 × 1024 256\times256\to1024\times1024 256×2561024×1024

为了提高鲁棒性,在训练时稍微破坏了图像。对第一个超分模型,使用高斯模糊,对第二个超分模型,we use a more diverse BSR degradation [42, 59] .

为了减少计算量并提升数值稳定性,we follow [42],使用目标图像四分之一大小的随机裁切图像来训练。只使用空间卷积(不用注意层),然后在推理阶段直接应用在目标分辨率上,发现模型可以成功泛化到目标分辨率。

他们发现在超分阶段使用指导信息没有用,所以他们使用了unconditional ADMNets [11]

prior 模型

他们尝试了两种 prior 模型架构,自回归和diffusion,他们发现 diffusion 作为 prior 效果更好。

prior使用的指导信息除了可以用文字标题,还能用 CLIP text embeding,毕竟他是文字标题的一个确定的函数

为了能实现无提示生成,训练 prior 时,有 10% 的时间会随机 dropping 文本指导信息。


http://www.ppmy.cn/news/252268.html

相关文章

论文笔记:DALL-E2:Hierarchical Text-ConditionalImage Generation with CLIP Latents详解

论文:https://cdn.openai.com/papers/dall-e-2.pdf 代码:https://github.com/lucidrains/DALLE2-pytorch 摘要 像CLIP这样的对比模型已经被证明可以学习稳健的图像表征,这些特征可以捕捉到语义和风格。为了利用这些表征来生成图像,我们提出了…

理解DALL·E 2, Stable Diffusion和 Midjourney工作原理

编者按:随着AIGC的兴起,各位小伙伴们对文生图工具DALL-E 2、Stable Diffusion和Midjourney一定并不陌生。 本期IDP Inspiration,小白将和大家一同走进这三者背后的技术原理,一探究竟。 以下是译文,Enjoy! 作者 | Arham…

关于OpenAI的DALL的一点使用心得

文章目录 注册DALL使用根据描述来generate上传图片来generate也可以根据描述信息或者相似的图片来进行设计 注册DALL https://openai.com/product/dall-e-2 使用 根据描述来generate surprise me 自动生成描述(因为每个月只有15个免费credits,节省起…

独家 | 为DALL·E 2花了15美元创作这幅AI图像以后,我学到了……

作者:Joy Zhang 翻译:陈超 校对:赵茹萱本文约3000字,建议阅读8分钟 本文介绍了作者使用DALLE 2生成了美洲驼灌篮的逼真版图片的过程。 是的,这是一只美洲驼灌篮。一份对DALLE 2封闭测试版试验的过程、限制以及学习内容…

DALL-E

CogView整体的算法框架与DALL-E相比更为简洁,文本部分的token转换已经十分成熟,下文不再做进一步介绍;图像则是通过一个离散化的AE(Auto-Encoder)转换为token。文本token和图像token拼接到一起之后输入到GPT模型中生成图像。最后在处理文本图…

DALL E2【论文阅读】

Hierarchical Text-Conditional Image Generation with CLIP Latents 1. Background 根据文本生成原创性图像,没有在训练集中出现过,学习特征然后进行组合根据文本对已有的图像进行编辑和修改,可以任意添加或移除已有物体(因为使…

AIGC之论文笔记DALL-E

文章目录 Zero-Shot Text-to-Image Generation一. 简介二. 方法2.1. 第一阶段:Learning the visual codebook2.1.1 回顾VQ-VAE2.1.2 p ψ p_{\psi} pψ​是离散分布,不可导的问题 -> gumbel-softmax Zero-Shot Text-to-Image Generation 一. 简介 …

简洁生动 | 图解 DALL-E 2 工作原理

选自assemblyai 作者:Ryan OConnor 机器之心编译 编辑:蛋酱 效果惊艳的 DALL-E 2,到底是怎么工作的? 2022 年 4 月初,OpenAI 的 DALL-E2,为图像生成和处理领域树立了新的标杆。只需输入简短的文字 promp…