2024年1月18日Arxiv最热CV论文：Vlogger: Make Your Dream A Vlog

梦想成真，用AI导演你的生活！中科院打造Vlogger，分钟级Vlog生成突破技术壁垒

引言：探索视频博客的自动生成

随着数字媒体的蓬勃发展，视频博客（Vlog）已成为人们分享故事和生活片段的流行方式。与传统的文字博客相比，视频博客以其生动的场景和丰富的视觉效果，为观众提供了更加直观和沉浸式的体验。然而，制作一部精彩的视频博客往往需要大量的时间和专业技能，从剧本创作、角色设计到视频拍摄和剪辑，每一个环节都充满挑战。

在人工智能领域，视频内容的自动生成一直是研究者们努力探索的方向。尤其是在近年来，随着生成模型的快速发展，短视频的自动生成取得了显著进展。但相比之下，长视频博客的自动生成则面临着更为复杂的故事线和多变的场景切换，这对现有的视频生成方法提出了更高的要求。

本文将介绍一种新颖的通用人工智能系统——Vlogger，它能够智能地通过模仿视频博客制作中的关键角色，自动化地生成长达数分钟的视频博客。Vlogger系统利用大型语言模型（LLM）作为导演，将长视频生成任务分解为四个关键阶段：剧本（Script）、角色（Actor）、展示制作（ShowMaker）和配音（Voicer）。通过这种设计，Vlogger能够通过自上而下的规划和自下而上的拍摄相结合的方式，将开放世界的故事转化为长达数分钟的视频博客。

声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」智能体自主完成，经人工审核后发布。

智能体传送门：赛博马良-AI论文解读达人

神奇口令： 小瑶读者 （前100位有效）

论文标题、机构、论文链接

论文标题：Vlogger: Make Your Dream A Vlog
机构：Shanghai Jiao Tong University, Shanghai AI Laboratory, Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, University of Chinese Academy of Sciences, S-Lab, Nanyang Technological University
论文链接：https://arxiv.org/pdf/2401.09414.pdf

在接下来的章节中，我们将详细介绍Vlogger系统的工作原理，以及它是如何通过创新的视频扩散模型ShowMaker，在保持剧本和角色连贯性的同时，实现视频片段的生成。此外，我们还将探讨Vlogger在零样本视频生成和预测任务上取得的最新进展，并通过实验验证其在视频博客自动生成方面的优越性能。

Vlogger系统概述：从用户描述到分钟级视频博客的生成

Vlogger是一个创新的AI系统，旨在将用户的故事描述转换为分钟级别的视频博客（即vlog）。与仅持续几秒的短视频不同，vlog通常包含复杂的故事情节和多样化的场景，这对大多数现有的视频生成方法来说是一个挑战。为了突破这一瓶颈，Vlogger巧妙地利用大型语言模型（LLM）作为导演，并将长视频生成任务分解为四个关键阶段，分别涉及脚本（Script）、角色（Actor）、ShowMaker拍摄和配音（Voicer）。通过模仿人类的设计，Vlogger通过自上而下的规划和自下而上的拍摄的可解释合作，能够生成vlog。此外，Vlogger引入了一种新颖的视频扩散模型ShowMaker，它作为视频制作人，负责生成每个拍摄场景的视频片段。通过将脚本和角色作为文本和视觉提示，ShowMaker能够有效地增强片段中的时空连贯性。此外，通过为ShowMaker设计一种简洁的混合训练范式，提升了其文本到视频（T2V）生成和预测的能力。最终，通过广泛的实验表明，我们的方法在零样本T2V生成和预测任务上实现了最先进的性能。更重要的是，Vlogger能够从开放世界的描述中生成超过5分钟的vlogs，且在脚本和角色的视频连贯性上没有损失。所有的代码和模型都可以在官方网站上获取。

LLM作为导演：四个关键阶段的分解

1. 脚本编写

在vlog的制作过程中，首先需要将用户的故事解析成脚本，这个脚本详细描述了故事通过一系列拍摄场景来呈现。由于LLM在语言理解方面展现出了卓越的能力，我们将用户的故事输入到这样的导演中进行脚本生成。通过逐步的创作范式，LLM导演能够通过粗略到细致的步骤有效地解析故事，并为每个场景分配拍摄时长。

2. 角色设计

生成脚本后，LLM导演会重新阅读脚本以总结角色，然后调用角色设计师（例如SD-XL）来生成vlog中这些角色的参考图像。基于脚本和角色，LLM导演决定每个拍摄场景的主角（即主人公），并为每个场景选择领衔角色。

3. ShowMaker拍摄

ShowMaker作为摄影师，是一个新颖的视频扩散模型，它不仅将场景描述作为文本提示，还将角色图像作为视觉提示。此外，ShowMaker包含两种学习模式——生成和预测，以控制每个场景的持续时间。通过在推理阶段顺序组合生成和预测模式，ShowMaker可以产生可控时长的视频片段。

4. Voicer配音

为了增强vlog的完整性，我们使用文本到语音模型（例如Bark）作为Voicer，将场景描述转换为相应的音频，并将此音频添加到相应的视频片段中。

ShowMaker的创新：视频片段生成的新模型

在视频博客（vlog）的生成中，ShowMaker作为一个创新的视频扩散模型，扮演着至关重要的角色。它不仅能够生成每个拍摄场景的视频片段，而且还能保持空间-时间上的连贯性。以下是ShowMaker的两个关键设计：

1. 空间-时间增强块(STEB)的设计

空间-时间增强块（STEB）是ShowMaker的核心组件，它能够适应性地利用场景描述和演员图像作为文本和视觉提示，从而引导ShowMaker增强视频片段的空间-时间连贯性。STEB通过空间-演员和时间-文本交叉注意力机制，进一步增强了片段中的演员和剧本连贯性。

2. 混合训练范式与模式选择

ShowMaker的训练采用了混合训练范式，通过概率模式选择机制，结合了文本到视频（T2V）生成和预测两种模式。在推理阶段，ShowMaker能够通过生成和预测模式的顺序组合，产生可控时长的视频片段，从而使Vlogger能够根据LLM导演对每个场景的规划，生成具有首选时长的vlog。

实验设计：数据集和评估指标

为了评估ShowMaker的性能，我们在多个流行的视频基准数据集上进行了实验，包括UCF-101、Kinetics-400和MSR-VTT。这些数据集包含了不同的动作类别和开放词汇的标题，为我们提供了评估T2V生成任务的理想环境。

UCF-101包含101个动作类别的视频，我们使用FVD（Fréchet Video Distance）来评估生成视频与真实视频之间的距离。
Kinetics-400是一个包含400个动作类别的数据集，我们使用FID（Fréchet Inception Distance）来评估视频生成的性能。
MSR-VTT是一个带有开放词汇标题的视频数据集，我们使用CLIPSIM和CLIP-FID来评估T2V生成。

此外，我们还收集了一个名为Vimeo11k的评估基准，它包含来自Vimeo的11,293个开放世界视频及其标题，是目前最大的零样本视频生成测试基准之一。通过这些实验，我们证明了ShowMaker在零样本T2V生成和预测任务上达到了最先进的性能，并且在生成超过5分钟的vlogs时，没有丢失视频在剧本和演员上的连贯性。

实验结果与分析：Vlogger的性能评估

在对Vlogger系统的性能进行评估时，我们采用了广泛的实验来测试其在零样本文本到视频（T2V）生成和预测任务上的表现。通过与现有的视频基准进行比较，Vlogger在UCF-101、Kinetics-400和MSR-VTT数据集上均展现出了优异的性能。

1. UCF-101数据集上的比较

在UCF-101数据集上，Vlogger在零样本视频生成任务中，无论输入文本是类别标签还是手工制作的提示，都取得了最佳的FVD性能（如表1所示）。这表明Vlogger在生成与真实视频距离更近的视频方面具有显著优势。

2. Kinetics-400数据集上的比较

在Kinetics-400数据集上，与Phenaki [68]相比，Vlogger在零样本设置下实现了更好的FID性能，且仅使用了66.7%的训练视频（如表2所示）。此外，Vlogger生成的视频分辨率为320×512，高于Phenaki的256×256，这进一步证明了Vlogger在生成高质量视频方面的能力。

3. MSR-VTT数据集上的比较

在MSR-VTT数据集上，Vlogger在FID和CLIPSIM性能上均表现出色（如表3所示）。此外，如图5所示，在UCF-101数据集上生成1000帧视频的比较中，Vlogger显著超越了TATS [24]（我们所知的唯一开源的长视频生成模型），并且随着帧数的增加，视频质量没有出现下降的问题。

讨论：Vlogger的优势与挑战

Vlogger系统的设计灵感来源于现实世界中成功的视频博客（vlog）制作，它通过顶层规划和底层拍摄的合作方式，将开放世界的故事有效转化为长达数分钟的vlog。Vlogger的核心优势在于其模拟人类专业团队的工作流程，通过LLM作为导演，将长视频生成任务分解为脚本创作、角色设计、视频拍摄和配音等关键阶段。

Vlogger的优势

模块化设计：Vlogger的模块化设计使其能够通过明确的场景文本和角色图像指导，减少突兀镜头变换带来的时空不连贯性。
ShowMaker的创新：Vlogger引入了ShowMaker，这是一个新颖的视频扩散模型，用于生成每个拍摄场景的视频片段。ShowMaker通过空间-时间增强块（STEB）和混合训练范式来提高视频片段的空间-时间连贯性。
无需大规模长视频数据集训练：与以往的长视频生成方法相比，Vlogger无需在大规模长视频数据集上进行繁琐的训练，从而节省了大量的计算资源和时间。

Vlogger面临的挑战

生成过程的复杂性：Vlogger需要处理复杂的用户故事，并将其转化为连贯的脚本和视频片段，这一过程在技术上具有一定的挑战性。
视频质量的持续提升：虽然Vlogger在生成长视频方面已经取得了显著的进步，但如何进一步提高视频的分辨率和视觉质量仍然是一个研究热点。
实时性能的优化：考虑到vlog的实时性需求，如何优化Vlogger的性能以支持实时或近实时的视频生成是未来的一个研究方向。

综上所述，Vlogger在长视频生成领域展现出了显著的潜力，但仍需不断优化和改进以满足更高的质量标准和实时性需求。

结论与未来工作展望

在本项工作中，我们提出了Vlogger，这是一个通用的人工智能系统，用于生成基于用户描述的分钟级视频博客（vlog）。与几秒钟的短视频不同，vlog通常包含复杂的故事情节和多样化的场景，这对大多数现有的视频生成方法来说是一个挑战。我们的Vlogger通过模仿人类的方式，巧妙地利用大型语言模型（LLM）作为导演，并将长视频生成任务分解为四个关键阶段，包括剧本（Script）、演员（Actor）、制片人（ShowMaker）和配音员（Voicer）。通过这种设计，Vlogger能够通过自上而下的规划和自下而上的拍摄的可解释合作来生成vlog。此外，我们引入了一种新颖的视频扩散模型ShowMaker，它作为Vlogger的摄影师，负责生成每个拍摄场景的视频片段。通过将剧本和演员作为文本和视觉提示，ShowMaker能够有效地增强片段的时空连贯性。我们还为ShowMaker设计了一种简洁的混合训练范式，提升了其文本到视频（T2V）生成和预测的能力。最终，广泛的实验表明，我们的方法在零样本T2V生成和预测任务上实现了最先进的性能。更重要的是，Vlogger能够从开放世界的描述中生成超过5分钟的vlog，且在剧本和演员的视频连贯性上没有损失。

1. 结论

Vlogger的成功展示了通过模仿现实世界中的vlog生产流程来生成长形式视频博客的可能性。通过将复杂的用户故事分解为多个拍摄场景，并为每个场景设计演员形象，Vlogger优雅地克服了以往长视频生成任务中遇到的挑战。它不仅在保持剧本和演员连贯性方面取得了显著成果，而且通过ShowMaker的结构和训练创新，提高了视频片段的质量和生成的灵活性。我们的方法不仅在技术上取得了突破，而且在实际应用中也具有重要的意义，为自动生成富有吸引力和情感表达的vlog开辟了新的道路。

2. 未来工作展望

尽管Vlogger在当前的实验中表现出色，但仍有进一步的改进空间和未来的研究方向。首先，虽然ShowMaker在生成视频片段时能够保持时空连贯性，但对于更加复杂或动态变化的场景，如何进一步提高生成质量仍然是一个开放的问题。其次，目前的系统在处理多个演员和复杂互动时可能会遇到挑战，未来可以探索更先进的角色设计和场景交互技术。此外，当前的系统依赖于大量的训练数据，如何减少对大规模数据集的依赖，以及如何提高模型的泛化能力，也是未来研究的重要方向。最后，随着技术的进步和创新，我们期待Vlogger能够在更多的应用场景中发挥作用，例如在电影制作、在线教育和虚拟现实中自动生成内容。我们也计划开放源代码和模型，以便社区能够进一步开发和改进长视频生成技术。

声明：本期论文解读非人类撰写，全文由赛博马良「AI论文解读达人」智能体自主完成，经人工审核后发布。

智能体传送门：赛博马良-AI论文解读达人

神奇口令： 小瑶读者 （前100位有效）