[PMLR 2021] Zero-Shot Text-to-Image Generation:零样本文本到图像生成

news/2024/12/28 21:14:39/

[PMLR 2021]Zero-Shot Text-to-Image Generation:零样本文本到图像生成

Fig 1. 原始图像(上)和离散VAE重建图像(下)的比较。编码器对空间分辨率进行8倍的下采样。虽然细节(例如,猫毛的纹理、店面上的文字和插图中的细线)有时会丢失或扭曲,但图像的主要特征通常仍然是可识别的。我们使用8192的大词汇量来减轻信息的丢失

Fig 1. 原始图像(上)和离散VAE重建图像(下)的比较。编码器对空间分辨率进行8倍的下采样。虽然细节(例如,猫毛的纹理、店面上的文字和插图中的细线)有时会丢失或扭曲,但图像的主要特征通常仍然是可识别的。我们使用8192的大词汇量来减轻信息的丢失

原文链接:[PMLR 2021]Zero-Shot Text-to-Image Generation:零样本文本到图像生成 (by)小样本视觉与智能前沿

文章目录

  • [PMLR 2021]Zero-Shot Text-to-Image Generation:零样本文本到图像生成
    • 01 现有工作的不足?
    • 02 文章解决了什么问题?
    • 03 关键的解决方案是什么?
    • 04 主要的贡献是什么?
    • 05 方法具体是如何实现的?
    • 06 实验结果和对比效果如何?
    • 07 消融研究告诉了我们什么?
    • 08 结论

01 现有工作的不足?

文本到图像生成的重点是为固定数据集的训练找到更好的建模假设。这些假设可能涉及复杂的体系结构、辅助损失或在训练期间提供的诸如对象部分标签或分割掩码之类的侧信息。

02 文章解决了什么问题?

我们描述了一种基于转换器的简单方法,该转换器将文本和图像标记自回归地建模为单个数据流, 实现了零样本的文本到图像的生成。

03 关键的解决方案是什么?

在这项工作中,我们展示了在从互联网收集的2.5亿个图像-文本对上训练一个120亿个参数的自回归转换器,会产生一个灵活的、高保真的图像生成模型,可以通过自然语言控制。

04 主要的贡献是什么?

  • 我们研究了一种基于自回归转换器的文本到图像生成的简单方法.
  • 提出的方法能够在初级水平上执行复杂的任务,如图像到图像的翻译。这以前需要定制方法(Isola等人,2017),而不是作为单个大型生成模型的能力出现。

05 方法具体是如何实现的?

我们的目标是训练一个转换器将文本和图像标记作为单个数据流进行自回归建模。然而,对于高分辨率图像,直接使用像素作为图像标记将需要过多的内存。可能性目标倾向于优先考虑像素之间的短程依赖关系建模,因此大部分建模能力将用于捕获高频细节,而不是使物体在视觉上可识别的低频结构。

我们通过使用两阶段的训练来解决这些问题:

  1. 我们训练了一个离散变分自编码器(dVAE)1,将每个256×256 RGB图像压缩成一个32 × 32的图像标记网格,它的每个元素可以有8192个可能的值。这将变压器的上下文大小减少了192倍,而视觉质量没有大的下降(参见图1)。
  2. 我们将多达256个BPE编码的文本标记与32 × 32 = 1024个图像标记连接起来,并训练一个自回归转换器来对文本和图像标记的联合分布进行建模。

我们用因式分解对这个分布建模:

产生下界:

Fig 4. 变压器resblock的逐resblock梯度缩放说明。实线表示正向传播的操作序列,虚线表示反向传播的操作序列。我们根据每个resblock的梯度缩放来缩放传入梯度,并在将其添加到连续resblock的梯度之和之前取消对传出梯度的缩放。沿着标识路径的激活和梯度以32位精度存储。“filter”操作将激活梯度中的所有Inf和NaN值设置为零。如果没有这一点,当前resblock中的非有限事件将导致之前所有resblock的梯度尺度不必要地下降,从而导致下溢。

Fig 4. 变压器resblock的逐resblock梯度缩放说明。实线表示正向传播的操作序列,虚线表示反向传播的操作序列。我们根据每个resblock的梯度缩放来缩放传入梯度,并在将其添加到连续resblock的梯度之和之前取消对传出梯度的缩放。沿着标识路径的激活和梯度以32位精度存储。“filter”操作将激活梯度中的所有Inf和NaN值设置为零。如果没有这一点,当前resblock中的非有限事件将导致之前所有resblock的梯度尺度不必要地下降,从而导致下溢。

06 实验结果和对比效果如何?

Fig 2. 在不同程度的可靠性下,我们的模型似乎能够以合理的方式组合不同的概念,创建动物的拟人化版本,呈现文本,并执行某些类型的图像到图像的翻译。
Fig 2. 在不同程度的可靠性下,我们的模型似乎能够以合理的方式组合不同的概念,创建动物的拟人化版本,呈现文本,并执行某些类型的图像到图像的翻译。

Fig 3. 将我们模型中的样本与MS-COCO中先前方法的样本进行比较。我们的每个模型样本都是由对比模型排名的512个样本中最好的。我们不使用任何手动挑选与任何模型的标题或样品的选择。
Fig 3. 将我们模型中的样本与MS-COCO中先前方法的样本进行比较。我们的每个模型样本都是由对比模型排名的512个样本中最好的。我们不使用任何手动挑选与任何模型的标题或样品的选择。

Fig 7. 人类对我们的模型(在没有温度降低的情况下评估零射击)与先前对MS-COCO标题的工作(DF-GAN)的评估。在五选一的投票中,我们模型的样本在90.0%的情况下被选为最真实的,在93.3%的情况下被选为最匹配共享标题的图像。
Fig 7. 人类对我们的模型(在没有温度降低的情况下评估零射击)与先前对MS-COCO标题的工作(DF-GAN)的评估。在五选一的投票中,我们模型的样本在90.0%的情况下被选为最真实的,在93.3%的情况下被选为最匹配共享标题的图像。

Fig 8. 我们的模型在CUB数据集上的Zero-shot样本。

Fig 8. 我们的模型在CUB数据集上的Zero-shot样本。

Fig 9. MS-COCO和CUB的定量结果。实线表示针对原始验证集计算的FID,虚线表示针对删除重叠图像的验证集计算的FID(参见3.2节)。对于MS-COCO,我们在从验证集中采样的30,000个标题的子集上评估所有模型。对于CUB,我们在测试集中的所有唯一标题上评估所有模型。
Fig 9. MS-COCO和CUB的定量结果。实线表示针对原始验证集计算的FID,虚线表示针对删除重叠图像的验证集计算的FID(参见3.2节)。对于MS-COCO,我们在从验证集中采样的30,000个标题的子集上评估所有模型。对于CUB,我们在测试集中的所有唯一标题上评估所有模型。

07 消融研究告诉了我们什么?

Tab 1. 我们展示了模型大小和梯度的最小压缩等级(最高128的倍数)之间的关系,这是避免在训练的前10%的训练损失中出现差距所必需的。这些结果表明,在我们的设置中,我们可以实现约85%的压缩率,与模型大小无关。
Tab 1. 我们展示了模型大小和梯度的最小压缩等级(最高128的倍数)之间的关系,这是避免在训练的前10%的训练损失中出现差距所必需的。这些结果表明,在我们的设置中,我们可以实现约85%的压缩率,与模型大小无关。

Fig 6. 增加对比重排序过程中图像数量对MS-COCO标题的影响。Fig 6. 增加对比重排序过程中图像数量对MS-COCO标题的影响。

08 结论

我们研究了一种基于自回归转换器的文本到图像生成的简单方法,当它在大规模执行时。我们发现,规模可以导致改进的泛化,无论是相对于以前的领域特定方法的零射击性能,还是从单个生成模型产生的功能范围来看。我们的研究结果表明,作为规模的函数提高泛化可能是这一任务进展的有用驱动因素。

原文链接:[PMLR 2021]Zero-Shot Text-to-Image Generation:零样本文本到图像生成 (by)小样本视觉与智能前沿


http://www.ppmy.cn/news/645974.html

相关文章

android studio git使用

pull代码 我们从远程仓库拉取代码时,一般有下面的两个选项 当使用Android Studio拉取代码时,有两种常见的选项:合并(merge)传入的更改到当前分支和变基(rebase)。 合并(Merge&…

苹果6s出现连接不上服务器未响应,苹果6s的蜂窝移动数据打开没反应怎么办

首先卡要支持4g(基本现在都是4g卡),然后在移动蜂窝数据里面开启移动蜂窝数据,然后下面有一个4g开启的选项,打开就行了。 一. 简介 移动通信的出现和发展加强了人们之间的联系,基于语音的移动通信已不能满足需要。让数据通信移动起…

iphone6s计算机没了,苹果6s每次链接电脑都没反应为什么

工具/原料 苹果设备一台 Win10 方法/步骤 1.首先当然是检查连接线的问题。这个重要的介质一定要保证它没有任何问题。然后才能讨论软问题。试着换一下USB接口或者其他媒介。抑或借一条别人可以使用的连接线。 2.第二,看我们有没有禁用一些服务项,尤其是B…

2023上半年软考系统分析师科目一整理-11

2023上半年软考系统分析师科目一整理-11 给定关系R(A,B,C,D,E) 和关系S(D,E,F,G),对其进行自然连接运算R ▷◁S后其结果集的属性列为( B )。 A. R.A, R.B, R.C, R.D, R.E, S.D, S.E B. R.A, R.B, R.C, R.D, R.E, S.F, S.G C. R.A, R.B, R.C, R.D, R.E,…

redux的使用

求和案例 react函数版 import React, { useRef , useState } from reactexport default function Count() {const [count,setCount] useState(0)const selectNumber useRef(null)function increment() {const value Number(selectNumber.current.value)setCount(count>…

英雄联盟中如何实现快速发送上次消息

英雄联盟中如何实现快速发送上次消息 #正文 大家好,欢迎大家阅读,这次为大家带来的是如何在英雄联盟中快速发送上次的消息,我在网上搜索了很多的教程,但是都没有一个好的效果,这里我给大家带来我的方法。 1.LOL中点击…

英雄联盟也能作为作文素材

适用主题: 思考 我一直急速前进,穿梭于人人之间。试图借应接不暇的风景让我褪去对你的思念。 ——无极剑圣 适用主题: 思念 …

英雄联盟无法启动 因计算机中,腾讯wegame无法启动英雄联盟?教你解决方法

腾讯wegame无法启动英雄联盟?教你解决方法 2020-03-27 腾讯wegame是一款面向全球玩家的游戏平台,最近有用户反映,腾讯wegame无法运行英雄联盟游戏,这是为什么呢?鉴于此,小编整理了一个简单有效的解决方法&a…