多模态论文笔记—

大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细解读多模态论文《VDT》，首次在视频扩散的生成模型中使用Transformer，这和后面的Sora架构最接近。

在这里插入图片描述

文章目录

论文
摘要
1 引言
近期研究
Transformer在视频领域的优势
本文工作

2 相关工作
2.1 扩散模型
2.2 视频生成和预测

3 方法
3.1 总体框架
3.2 视频预测的条件视频生成方案
3.3 统一的时空掩码建模

4 实验
4.1 数据集与设置
4.2 分析
4.3 与最先进方法的比较

5 结论

热门专栏
机器学习
深度学习

论文

论文名：VDT: GENERAL-PURPOSE VIDEO DIFFUSION TRANSFORMERS VIA MASK MODELING
论文链接：https://arxiv.org/pdf/2305.13311
项目地址：https://VDT - 2023.github.io

2023年5月，中国人民大学与加州大学伯克利分校、香港大学等共同提出了基于 Transformer 的 Video 统一生成框架：Video Diffusion Transformer，它统一了各种视频生成任务，是一个通用的视频扩散器，可用于多种任务，包括无条件生成、预测、插值、动画和时空视频生成等。

摘要

本文提出视频扩散变换器（VDT），首次将变换器用于基于扩散的视频生成，核心要点如下：

模型设计：VDT采用含模块化时空注意力模块的Transformer块，利用变换器强大的时空表示能力。同时提出统一的时空掩码建模机制，与模型紧密结合，以适应不同视频生成场景。
模型优势
- 捕捉时间依赖：能生成时间连贯的视频帧，模拟3D物体的物理和动力学变化。
- 整合条件信息：在令牌空间简单拼接即可统一不同长度令牌和模态，灵活整合条件信息。
- 通用视频扩散：结合时空掩码建模机制，可用于无条件生成、视频预测、插值、动画制作、视频补全等多种任务。
实验验证：在自动驾驶、自然天气、人类动作、物理模拟等场景的多个数据集上进行实验，结果表明VDT在视频生成和预测等任务上表现出色，优于部分传统方法。
研究意义：全面研究了VDT通过掩码建模机制处理条件信息的方式，为后续研究提供参考，推动视频生成领域的发展。

1 引言

近期研究

近年来，人工智能生成内容（AIGC）取得了显著成就，扩散模型已成为图像（Nichol & Dhariwal, 2021; Dhariwal & Nichol, 2021）和音频领域（Kong et al., 2020; Huang et al., 2023）广泛研究的核心技术。例如，DALL-E 2（Ramesh et al., 2022）和Stable Diffusion（Rombach et al., 2022）等方法可以根据文本描述生成高质量图像。然而，视频领域的扩散方法尽管备受关注，但仍相对滞后。挑战在于如何有效地对时间信息进行建模，以生成时间上连贯的高质量视频帧，以及如何统一各种视频生成任务，包括无条件生成、预测、插值、动画制作和视频补全等，如图1所示。
在这里插入图片描述

图1：通过时空掩码建模的统一视频扩散变换器（VDT）示意图。VDT是一个基于纯变换器架构构建的通用框架。

人工智能生成内容（AIGC）尤其是视频扩散模型的发展情况，引出本文对视频扩散中使用视觉变换器的探讨，具体重点如下：

AIGC与扩散模型发展：AIGC成就显著，扩散模型在图像和音频领域广泛研究，像DALL-E 2、Stable Diffusion可依文本生成高质量图像。
视频扩散模型的挑战：视频领域扩散方法受关注但发展滞后，难题在于对时间信息有效建模以生成连贯高质量视频帧，以及统一无条件生成、预测等多种视频生成任务。
现有研究与新思考：近期不少研究基于扩散技术和U - Net架构进行视频生成和预测，但鲜少探索替代架构。Transformer架构在深度学习各领域的成功及其处理时间数据的能力，作者思考在视频扩散中以视觉Transformer为骨干模型的可行性，虽变换器在图像生成领域成果初现，但应用于视频扩散时，因其时间特性会面临独特问题。

Transformer在视频领域的优势

具体优势如下：

任务整合优势：视频生成任务多样，涉及不同条件信息，先前研究常聚焦单个任务并使用专门模块微调。Transformer强大的架构可处理不同长度输入和模态，有助于无缝统一多种任务。
时间建模优势：与专为图像设计的U-Net不同，Transformer凭借强大的令牌化和注意力机制，能捕捉长距离或不规则时间依赖关系，在视频分类、定位和检索等任务中性能优于卷积网络，更擅长处理时间维度。
模型容量优势：生成符合现实世界的视频需要模型学习到相关知识，模型容量至关重要。Transformer扩展性强，参数规模远超部分U-Net，如最大的U-Net（SD-XL）有26亿参数，而PaLM这类变换器达5400亿参数，更适合应对视频生成挑战。

本文工作

本部分重点介绍作者提出的视频扩散变换器（VDT），阐述其组成、优势及研究贡献，具体如下：

VDT模型提出：为解决Transformer应用于视频扩散面临的挑战，提出VDT。它由带时空注意力模块的Transformer块、VAE令牌器和解码器构成。
VDT模型优势
- 捕捉时间依赖：能把握帧演变和物体动态变化，其时间注意力模块保证生成高质量且时间连贯的视频帧。
- 条件设定简便：基于变换器特性，简单令牌拼接就能实现出色的对视频帧的条件设定。
- 任务适应性广：结合统一时空掩码建模机制，可用于无条件视频生成、双向视频预测等多种任务，通过训练成为通用视频扩散器。
本研究贡献
- 模型创新：首次在基于扩散的视频生成中成功应用变换器，推出VDT，展现该领域应用潜力。
- 机制创新：引入统一时空掩码建模机制，使VDT统一多种通用任务，能处理复杂任务如捕捉3D物体动力学变化。
- 推动领域发展：全面研究VDT在捕捉时间依赖、处理条件信息和高效训练等方面的表现，加深对基于变换器的视频扩散的理解，推动该领域发展。

2 相关工作

2.1 扩散模型

这部分主要介绍了扩散模型的发展及应用现状，引出本研究探索的方向，重点内容如下：

扩散模型的成功与发展：扩散模型在生成领域成果显著，自（Ho et al., 2020）提出图像生成的噪声预测公式后，众多改进围绕样本质量、采样效率和条件生成展开。详细可以参考：Diffusion Model 原理
扩散模型的应用领域：除图像生成（SD、DALL·E等）外，还广泛应用于音频生成、视频生成和点云生成等领域，且此前大多基于U - Net架构构建模型。详细可以参考：AIGC—图像
新架构的出现：近期出现基于变换器的扩散模型用于图像生成，效果与基于U - Net的架构相当。详细可以参考：多模态论文笔记——DiT（Diffusion Transformer）
本研究方向：鉴于Transformer卓越的时间建模能力，文章探索将基于变换器的扩散模型应用于视频生成和预测。

2.2 视频生成和预测

视频生成和视频预测是两个极具挑战性的任务，近年来由于网络视频的爆炸式增长而受到广泛关注：

任务受关注及现有方法：视频生成和预测任务因网络视频发展备受关注。过往研究中，部分使用GANs学习视频帧联合分布，部分借助向量量化自编码器和变换器在潜在空间学习分布；在视频生成方面，有研究通过在2D U - Net引入时间注意力学习时空特征；近期也有研究将扩散用于视频预测，整合2D U - Net并依前序帧生成新帧。
现有研究局限：以往研究多聚焦于视频生成或预测单一任务，难以在两个方面同时表现优异。
VDT模型优势：本文提出的VDT基于纯变换器架构，具有强大的视频生成潜力。借助统一的时空掩码建模机制，它能无缝拓展到更多视频生成任务，且无需修改底层架构就能在这些任务上取得良好表现。

3 方法

将视频扩散变换器（VDT）作为基于扩散的视频生成的统一框架。

3.1节对VDT进行总体概述。
3.2节深入探讨VDT在条件视频生成中的应用。
3.3节展示VDT借助统一的时空掩码建模拓展到多种通用任务的方式。

3.1 总体框架

在这里插入图片描述

图2：视频扩散变换器（VDT）示意图。(a) 带有时间和空间注意力机制的VDT模块。(b) VDT的扩散流程。© 均匀采样视频帧，然后使用预训练的变分自编码器（VAE）标记器将其投影到潜在空间。

在本文中专注于探索基于变换器的扩散在视频生成中的应用，视频扩散变换器（VDT）的总体架构如图2所示。VDT对噪声预测网络进行参数化。

输入/输出特征：VDT的目标是生成一个视频片段，属于 $R^{F ×H ×W ×3}$ ，由F帧大小为 $H \times W$ 的图像组成。使用从LDM预训练的VAE令牌器将视频投影到潜在空间，将输入和输出减少为潜在特征/噪声 $\in R^{F ×H / 8 ×W / 8 ×C}$ ，其中包含F个大小为 $H /8 \times W /8$ 的帧潜在特征。这里，8是VAE令牌器的下采样率，C表示潜在特征维度。
线性嵌入：遵循视觉变换器（ViT）的方法，作者在空间维度上将潜在特征表示划分为大小为 $N \times N$ 的非重叠补丁。为了显式地学习空间和时间信息向每个补丁添加空间和时间位置嵌入（正弦 - 余弦）。
时空变换器块：受时空自注意力机制启发，在变换器块中添加时间注意力层，使其具备时间建模能力。具体来说，每个变换器块由一个多头时间注意力层、一个多头空间注意力层和一个全连接前馈网络组成，如图2所示。

在扩散过程中，将时间信息整合到Transformer块中至关重要。遵循基于U - Net的扩散模型中使用的自适应组归一化方法，作者在Transformer块的层归一化之后整合时间分量，其公式可以表示为： $adaLN(h, t)=t_{scale }LayerNorm(h)+t_{shift }（1）$

其中 $h$ 是隐藏状态， $t_{scale }$ 和 $t_{shift }$ 是从时间嵌入中获得的缩放和偏移参数。

3.2 视频预测的条件视频生成方案

VDT的视频预测方案是：把视频前几帧作为条件帧自回归预测下一帧。VDT的条件视频生成，其中给定/观察到的帧是条件帧，论文中的实现方案共三种，如下：

在这里插入图片描述

Figure 3: Illustration of three video prediction schemes.

自适应层归一化：实现视频预测的一种直接方法是将条件帧特征整合到Transformer块的层归一化中，类似于在扩散过程中整合时间信息的方式。公式（1）可以改写为： $adaLN(h,c)=c_{scale}LayerNorm(h)+c_{shift}（2）$ 其中 $h$ 是隐藏状态， $c_{scaie }$ 和 $c_{shift }$ 是从时间嵌入和条件帧中获得的缩放和偏移参数。
交叉注意力：作者还探索了使用交叉注意力作为视频预测方案，其中条件帧用作K和V，而噪声帧用作Q。这允许在噪声帧内融合条件信息。在进入交叉注意力层之前，使用VAE令牌器提取条件帧的特征并进行补丁化。还添加了空间和时间位置嵌入，以帮助我们的VDT学习条件帧内的相应信息。
令牌拼接：因为VDT模型采用纯Transformer架构，因此，一种更直观的方法是直接将条件帧用作VDT的输入令牌。
- 先通过在令牌级别拼接条件帧（潜在特征）和噪声帧来实现这一点；
- 然后将其输入到VDT中。从VDT的输出帧序列中拆分出预测帧，并将其用于扩散过程，如图3（b）所示。

作者发现令牌拼接的方法收敛速度最快，并且与前两种方法相比，在最终结果中表现更优。此外，即使在训练过程中为条件帧使用固定长度，VDT仍然可以接受任意长度的条件帧作为输入，并输出一致的预测特征（详细信息参考附录）。

3.3 统一的时空掩码建模

在上节中，作者发现简单的令牌拼接足以将VDT扩展到视频预测任务。如何将VDT扩展到更多样化的视频生成任务？简单来说，就是将 VDT 扩展到图片生成视频，而无需引入额外的模块或参数。

VDT在无条件生成和视频预测中唯一的区别在于输入特征的类型。具体来说，输入可以是纯噪声潜在特征，也可以是条件和噪声潜在特征的拼接。然后，作者引入一个条件时空掩码来统一条件输入 $\mathcal{I}$ ，其公式如下： $\mathcal{I}=\mathcal{F} \Lambda(1-\mathcal{M})+\mathcal{C} \Lambda \mathcal{M}（3）$

$\in R^{F ×H ×W ×C}$ 代表实际的条件视频，
$\in R^{F ×H ×W ×C}$ 表示噪声，
$\Lambda$ 表示逐元素乘法，
时空掩码 $\in R^{F ×H ×W ×C}$ 控制每个令牌 $\in R^{C}$ 是来自真实视频还是噪声。

在这个统一的框架下，作者通过调整时空掩码M，将更多的视频生成任务纳入VDT的训练过程。这确保了经过良好训练的VDT可以轻松应用于各种视频生成任务。

在训练过程中考虑以下训练任务（如图4和图5所示）：

无条件生成：此训练任务与3.1节中概述的过程一致，其中时空掩码M设置为全零。
双向视频预测：在3.2节将VDT扩展到视频预测任务的基础上，还挑战模型根据给定视频的最后几帧预测过去的事件，从而鼓励增强时间建模能力。
任意视频插值：帧插值是视频生成的关键方面。在这里，我们将这个任务扩展到涵盖任意给定n帧的场景，模型需要填充缺失的帧以完成整个视频序列。
图像到视频生成：这是任意视频插值的一个特定实例。从单个图像开始，我们随机选择一个时间位置，并强制我们的VDT生成完整的视频。因此，在推理过程中，我们可以任意指定图像的时间位置并从其生成视频序列。
时空视频补全：时空视频补全是对模型在空间领域扩展的探索，借助统一的掩码建模机制，通过创建时空掩码来实现。简单随机时空任务对VDT而言可能过于简单，因其易从周围令牌收集信息。受BEiT启发，采用时空块掩码方法，以避免VDT收敛到简单解决方案。

在这里插入图片描述

图4：我们统一的时空掩码建模机制示意图。

在这里插入图片描述

图5：统一视频生成任务的定性结果。对于每个样本，我们在上方一行给出掩码和条件信息，在下方展示由视频扩散变换器（VDT）生成的结果。

4 实验

下面做简要介绍，详细信息，请参考原论文。

4.1 数据集与设置

数据集：
- VDT在视频生成和预测任务上评估。
- 视频合成方面，在UCF101、TaiChi和Sky Time - Lapse数据集上给出无条件生成结果。
- 视频预测方面，在Cityscapes和Physion数据集上实验以展示预测能力。
评估指标：
- 主要采用FVD与先前工作比较，因其能兼顾样本保真度和多样性。
- 视频生成任务还报告SSIM和PSNR。
- 物理预测任务报告VQA准确率。
- 不同数据集剪辑长度有设定，且各数据集视频有相应裁剪和下采样尺寸。
VDT配置：
- 表1提供VDT模型两个版本详细信息，默认用VDT - L。
- 初始学习率设为1e - 4，采用AdamW优化器。
- 用预训练VAE模型作标记器且训练时冻结，超参数Patchsize统一设为2，附录有更多详情。

4.2 分析

视频预测条件策略：
- 3.2节探索了自适应层归一化、交叉注意力、标记拼接三种条件策略。
- 标记拼接策略收敛速度最快、样本质量最佳（体现在FVD和SSIM指标上），因此在所有视频预测任务中均采用该策略。
训练策略：
- 研究了表3中的不同训练策略，仅空间训练会去除时间注意力并单帧采样，让模型专注学习空间特征。
- 先进行空间预训练再联合训练，在时间减少的情况下性能优于直接时空联合调整，表明图像预训练初始化对视频生成至关重要。

4.3 与最先进方法的比较

无条件生成
- 定量上，VDT相较于基于GAN的方法有显著优势，性能远超同为基于扩散方法的MCVD；与VDM因结果分割问题无法直接比较，但VDT仅在训练集分割训练也有卓越性能。
- 定性上，在TaiChi和Sky Time - Lapse数据集中，其他模型存在噪声伪影、生成动作静态且有扭曲等问题，VDT颜色保真度好，能生成连贯丰富运动模式并保留细节。
视频预测
- VDT凭借Transformer固有的序列建模能力可无缝扩展到视频预测任务。
- 在Cityscape数据集上，VDT采用简单标记拼接策略，FVD与MCVD相当，SSIM更优，且生成视频颜色一致性出色。
物理视频预测
- 在Physion数据集上，VDT直接处理视频预测任务，能学习条件帧潜在物理现象并生成准确预测。
- VQA测试中，VDT优于所有以场景为中心的方法，证明其物理视频预测能力强。

5 结论

VDT 是基于 Transformer 架构的视频生成模型，Transformer 的序列建模能力使 VDT 通过简单标记拼接策略可无缝扩展到视频预测任务。受 GPU 计算资源限制，作者没有在大规模图像或视频数据集上预训练 VDT 模型，限制了其潜力。