【AI论文】VideoAuteur：迈向长叙事视频

摘要：近期的视频生成模型在制作持续数秒的高质量视频片段方面已展现出令人鼓舞的成果。然而，这些模型在生成能传达清晰且富有信息量的长序列时面临挑战，限制了它们支持连贯叙事的能力。在本文中，我们提出了一个大规模烹饪视频数据集，旨在推动烹饪领域的长形式叙事生成发展。我们分别使用最先进的视觉-语言模型（VLMs）和视频生成模型，从视觉保真度和文本字幕准确性两个方面验证了所提数据集的质量。此外，我们还引入了一种长叙事视频导演方法，以增强生成视频在视觉和语义上的连贯性，并强调了对齐视觉嵌入对于提升整体视频质量的重要作用。我们的方法在生成视觉细节丰富且语义对齐的关键帧方面取得了显著改进，这得益于在视频生成过程中融合了文本和图像嵌入的微调技术。项目页面：Towards Long Narrative Video Generation Huggingface链接：Paper page，论文链接：2501.06173

1. 引言

视频生成模型的现状：

近年来，视频生成模型在生成高质量、持续数秒的视频片段方面取得了显著进展。这些模型主要分为扩散模型和自回归模型两大类，前者如DiT、Sora和CogVideo等，后者如VideoPoet和Emu系列。这些模型能够生成逼真的视频内容，但在生成能够传达清晰且连贯叙事的长序列视频方面仍面临挑战。

长叙事视频生成的重要性：

叙事是人类组织经验和记忆的重要工具，对于人类社会的发展具有至关重要的作用。然而，在视频生成领域，如何生成具有完整叙事结构的长视频仍然是一个亟待解决的问题。
现有的视频生成模型在生成长视频时，往往难以保持语义一致性和视觉连贯性，导致生成的视频内容缺乏逻辑性和观赏性。

研究动机与目标：

针对上述问题，本文提出了一种新的长叙事视频生成方法，旨在生成具有连贯叙事和丰富视觉细节的长视频。
为此，本文构建了一个大规模的烹饪视频数据集CookGen，并设计了一个包含长叙事视频导演和视觉条件视频生成模型在内的VideoAuteur管道。

2. 相关工作

文本到图像/视频生成：

文本到图像和视频生成是计算机视觉和自然语言处理领域的热门研究方向。近年来，随着深度学习技术的不断发展，该领域取得了显著进展。然而，现有的文本到视频生成模型主要关注于生成短时间的视频片段，而缺乏对长叙事视频生成的有效支持。

交织的图像-文本建模：

交织的图像-文本生成是一个将视觉和文本模态相结合以产生丰富输出的研究领域。现有的交织图像-文本生成模型主要依赖于大规模图像-文本配对数据集，并通过预训练的语言模型来生成图像和文本。然而，这些模型在生成连贯的长叙事视频方面仍存在不足。

叙事视觉生成：

叙事视觉生成的研究重点在于确保生成图像之间的一致性。现有的方法主要采用条件生成技术，在扩散或自回归模型中生成具有连贯性的图像序列。然而，这些方法在生成长叙事视频时仍面临挑战，特别是在保持对象/角色身份跨场景一致性和生成具有复杂事件序列的语义一致性方面。

3. 长叙事视频数据

数据集概述：

为推动长叙事视频生成的研究，本文构建了一个大规模的烹饪视频数据集CookGen。该数据集包含约200,000个视频片段，平均每个片段持续9.5秒。
数据集的视频来源于YouCook2和HowTo100M两个现有视频数据集，并经过质量过滤和字幕标注等预处理步骤。

数据标注与处理：

为确保数据集的质量和可扩展性，本文设计了一个高效的标注管道。对于字幕生成，本文训练了一个基于开源VLM的视频字幕生成器，并使用GPT-4和LLaVA-NeXT进行微调以优化性能。
对于动作标注，本文使用HowTo100M的ASR伪标签，并通过LLMs进行细化以提高标注质量。此外，本文还实现了基于时间间隔的字幕-动作匹配和过滤过程，以确保字幕和动作的对齐。

数据集评价：

为评估数据集的质量，本文进行了逆视频生成和视觉理解两个方面的评价。逆视频生成实验表明，本文的字幕能够捕捉足够的语义信息以有效重建原始视频。视觉理解实验则通过GPT-4和人类评估者对字幕质量进行了评价，结果显示本文的数据集在覆盖视频元素和避免幻觉方面表现出色。

4. 方法

长叙事视频生成任务：

给定文本输入，长叙事视频生成的任务是生成一个与文本输入顺序一致的连贯长视频。为实现这一目标，本文提出了VideoAuteur管道，该管道包含长叙事视频导演和视觉条件视频生成两个主要组件。

长叙事视频导演：

长叙事视频导演负责生成一系列视觉嵌入（或关键帧），以捕捉叙事的流程。本文探索了两种类型的视频导演：交织图像-文本导演和语言中心关键帧导演。
交织图像-文本导演采用自回归模型，根据累积的文本和图像上下文预测下一个令牌，从而生成连贯的叙事序列。该模型使用CLIP-Diffusion视觉自编码器将原始图像编码为视觉嵌入，并通过回归损失函数对齐生成的视觉嵌入与目标视觉嵌入。
语言中心关键帧导演则仅使用文本指导来合成关键帧。尽管这种方法能够生成高保真度的图像，但缺乏在关键帧之间的细微过渡，因此相比交织图像-文本导演在连贯性方面表现较差。

视觉条件视频生成：

视觉条件视频生成模型利用长叙事视频导演生成的动作、字幕和视觉状态作为条件来生成连贯的长叙事视频。与传统的基于初始关键帧的视觉条件视频生成方法不同，本文的方法利用回归的视觉嵌入作为连续条件来指导视频生成过程。
为提高模型对噪声视觉嵌入的鲁棒性，本文在训练过程中应用了高斯噪声、随机掩码和随机洗牌等正则化技术。这些技术有助于模型在处理不完美的视觉嵌入时生成更高质量的视频。

5. 实验

实验设置：

本文使用SEED-X作为基线模型，并通过LoRA微调技术在叙事数据集上进行训练。对于视频生成，本文采用了一种类似于Sora的预训练视频-文本对模型。
实验数据包括约32,000个叙事视频用于模型开发，以及约1,000个视频用于验证。所有视频均被调整为448（短边）分辨率，并进行中心裁剪以得到448x448分辨率的图像。

交织叙事导演实验：

本文探索了不同的视觉潜在空间、损失设计和跨模态回归任务对交织自回归模型的影响。实验结果表明，使用CLIP嵌入的自动编码器在视觉生成质量方面显著优于VAE潜在空间。此外，结合MSE损失和余弦相似度损失的回归损失函数在视觉嵌入的尺度和方向上均表现出色。
在从“动作”到“视觉状态”的转换过程中，本文发现从动作到语言状态再到视觉状态的推理链在长叙事视觉生成方面最为有效。

视觉条件视频生成实验：

与基于关键帧的条件策略相比，本文的方法在CLIP-T和FVD分数方面均表现出色。这表明使用回归的视觉嵌入作为条件能够生成更高语义对齐和质量的视频。

6. 结论

研究贡献：

本文构建了一个大规模的烹饪视频数据集CookGen，并设计了一个包含长叙事视频导演和视觉条件视频生成模型在内的VideoAuteur管道。这些数据集和管道为长叙事视频生成的研究提供了有力的支持。
实验结果表明，本文的方法在生成视觉细节丰富且语义对齐的关键帧方面取得了显著改进。这些改进得益于在视频生成过程中融合了文本和图像嵌入的微调技术。

未来展望：

尽管本文的方法在长叙事视频生成方面取得了初步成果，但仍存在许多挑战和待解决的问题。例如，如何提高自动语音识别生成的动作标注的质量、如何减少视频生成模型中的幻觉现象等。未来的研究可以进一步探索这些问题，并推动长叙事视频生成技术的发展。

7. 数据集统计与案例分析

数据集统计：

CookGen数据集包含的视频长度分布广泛，大多数视频长度在30到150秒之间。视频片段长度主要分布在5到30秒之间，每个视频被分割成4到12个片段，确保了叙事结构的平衡性。
数据集中的字幕和动作标注详细且丰富，字幕长度通常在40到70词之间，动作标注长度在10到25词之间。这些详细的标注为生成连贯且富有信息量的长叙事视频提供了有力支持。

案例分析：

本文展示了使用VideoAuteur管道生成的烹饪视频示例，如“Fried Chicken”和“Shish Kabob”的制作过程。这些视频通过逐步展示烹饪步骤，有效地传达了烹饪过程的关键信息，并展示了模型在生成连贯且富有信息量的长叙事视频方面的能力。

8. 方法细节与实现

视觉潜在空间与回归损失：

本文对比了不同视觉潜在空间（如VAE、SEED-X和EMU-2）在视觉回归任务中的表现。实验结果表明，使用CLIP嵌入的自动编码器（如SEED-X和EMU-2）在视觉生成质量方面优于VAE潜在空间。
在回归损失函数的设计上，本文结合了MSE损失（最小化尺度误差）和余弦相似度损失（最小化方向误差），以实现对视觉嵌入的准确回归。

模型训练与推理：