[PMLR 2021]Zero-Shot Text-to-Image Generation:零样本文本到图像生成
Fig 1. 原始图像(上)和离散VAE重建图像(下)的比较。编码器对空间分辨率进行8倍的下采样。虽然细节(例如,猫毛的纹理、店面上的文字和插图中的细线)有时会丢失或扭曲,但图像的主要特征通常仍然是可识别的。我们使用8192的大词汇量来减轻信息的丢失
原文链接:[PMLR 2021]Zero-Shot Text-to-Image Generation:零样本文本到图像生成 (by)小样本视觉与智能前沿
文章目录
- [PMLR 2021]Zero-Shot Text-to-Image Generation:零样本文本到图像生成
- 01 现有工作的不足?
- 02 文章解决了什么问题?
- 03 关键的解决方案是什么?
- 04 主要的贡献是什么?
- 05 方法具体是如何实现的?
- 06 实验结果和对比效果如何?
- 07 消融研究告诉了我们什么?
- 08 结论
01 现有工作的不足?
文本到图像生成的重点是为固定数据集的训练找到更好的建模假设。这些假设可能涉及复杂的体系结构、辅助损失或在训练期间提供的诸如对象部分标签或分割掩码之类的侧信息。
02 文章解决了什么问题?
我们描述了一种基于转换器的简单方法,该转换器将文本和图像标记自回归地建模为单个数据流, 实现了零样本的文本到图像的生成。
03 关键的解决方案是什么?
在这项工作中,我们展示了在从互联网收集的2.5亿个图像-文本对上训练一个120亿个参数的自回归转换器,会产生一个灵活的、高保真的图像生成模型,可以通过自然语言控制。
04 主要的贡献是什么?
- 我们研究了一种基于自回归转换器的文本到图像生成的简单方法.
- 提出的方法能够在初级水平上执行复杂的任务,如图像到图像的翻译。这以前需要定制方法(Isola等人,2017),而不是作为单个大型生成模型的能力出现。
05 方法具体是如何实现的?
我们的目标是训练一个转换器将文本和图像标记作为单个数据流进行自回归建模。然而,对于高分辨率图像,直接使用像素作为图像标记将需要过多的内存。可能性目标倾向于优先考虑像素之间的短程依赖关系建模,因此大部分建模能力将用于捕获高频细节,而不是使物体在视觉上可识别的低频结构。
我们通过使用两阶段的训练来解决这些问题:
- 我们训练了一个离散变分自编码器(dVAE)1,将每个256×256 RGB图像压缩成一个32 × 32的图像标记网格,它的每个元素可以有8192个可能的值。这将变压器的上下文大小减少了192倍,而视觉质量没有大的下降(参见图1)。
- 我们将多达256个BPE编码的文本标记与32 × 32 = 1024个图像标记连接起来,并训练一个自回归转换器来对文本和图像标记的联合分布进行建模。
我们用因式分解对这个分布建模:
产生下界:
Fig 4. 变压器resblock的逐resblock梯度缩放说明。实线表示正向传播的操作序列,虚线表示反向传播的操作序列。我们根据每个resblock的梯度缩放来缩放传入梯度,并在将其添加到连续resblock的梯度之和之前取消对传出梯度的缩放。沿着标识路径的激活和梯度以32位精度存储。“filter”操作将激活梯度中的所有Inf和NaN值设置为零。如果没有这一点,当前resblock中的非有限事件将导致之前所有resblock的梯度尺度不必要地下降,从而导致下溢。
06 实验结果和对比效果如何?
Fig 2. 在不同程度的可靠性下,我们的模型似乎能够以合理的方式组合不同的概念,创建动物的拟人化版本,呈现文本,并执行某些类型的图像到图像的翻译。
Fig 3. 将我们模型中的样本与MS-COCO中先前方法的样本进行比较。我们的每个模型样本都是由对比模型排名的512个样本中最好的。我们不使用任何手动挑选与任何模型的标题或样品的选择。
Fig 7. 人类对我们的模型(在没有温度降低的情况下评估零射击)与先前对MS-COCO标题的工作(DF-GAN)的评估。在五选一的投票中,我们模型的样本在90.0%的情况下被选为最真实的,在93.3%的情况下被选为最匹配共享标题的图像。
Fig 8. 我们的模型在CUB数据集上的Zero-shot样本。
Fig 9. MS-COCO和CUB的定量结果。实线表示针对原始验证集计算的FID,虚线表示针对删除重叠图像的验证集计算的FID(参见3.2节)。对于MS-COCO,我们在从验证集中采样的30,000个标题的子集上评估所有模型。对于CUB,我们在测试集中的所有唯一标题上评估所有模型。
07 消融研究告诉了我们什么?
Tab 1. 我们展示了模型大小和梯度的最小压缩等级(最高128的倍数)之间的关系,这是避免在训练的前10%的训练损失中出现差距所必需的。这些结果表明,在我们的设置中,我们可以实现约85%的压缩率,与模型大小无关。
Fig 6. 增加对比重排序过程中图像数量对MS-COCO标题的影响。
08 结论
我们研究了一种基于自回归转换器的文本到图像生成的简单方法,当它在大规模执行时。我们发现,规模可以导致改进的泛化,无论是相对于以前的领域特定方法的零射击性能,还是从单个生成模型产生的功能范围来看。我们的研究结果表明,作为规模的函数提高泛化可能是这一任务进展的有用驱动因素。
原文链接:[PMLR 2021]Zero-Shot Text-to-Image Generation:零样本文本到图像生成 (by)小样本视觉与智能前沿