OmniHuman：一张图+音频生成逼真视频

人工智能咨询培训老师叶梓转载标明出处

想要掌握如何将大模型的力量发挥到极致吗？叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具（限时免费）。

1小时实战课程，您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型，以发挥其最大潜力。

CSDN教学平台录播地址：https://edu.csdn.net/course/detail/39987

更多分享，关注视频号：sphuYAMr0pGTk27 抖音号：44185842659

现有的端到端人类动画模型在扩展到大规模视频生成任务时面临挑战，主要是因为这些模型依赖于经过严格筛选的数据集，导致大量数据被丢弃，限制了模型的泛化能力和生成效果。此外，现有方法在处理复杂场景（如全身动画、人与物体交互等）时表现不佳。

为了解决这一问题，字节跳动的研究团队提出了一种名为OmniHuman的新框架。OmniHuman基于扩散变换器（Diffusion Transformer），通过在训练阶段混合多种运动相关条件，实现了数据的扩展，并显著提升了生成视频的真实性和多样性。

OmniHuman 的核心方法

OmniHuman 的核心方法是通过一种创新的多模态混合训练策略，结合扩散变换器（Diffusion Transformer）架构，实现高质量的人类动画视频生成。

Figure 2 展示了 OmniHuman 的整体框架。OmniHuman 的框架由两部分组成：OmniHuman 模型和全条件训练策略（Omni-Conditions Training Strategy）。OmniHuman 模型基于预训练的 DiT（Diffusion Transformer）架构，能够同时接收多种模态输入（如文本、图像、音频和姿势）进行控制，从而生成逼真的人像视频。

1. 全条件训练策略

OmniHuman 提出了一个渐进式、多阶段的训练方法，根据不同条件对运动的影响程度进行分阶段训练。这一策略遵循两个关键原则：

更强条件的任务可以利用较弱条件的任务及其数据，从而实现数据扩展。例如，音频驱动的任务通常因唇部同步等要求而丢弃大量数据，而这些数据可以用于文本驱动的任务。
条件越强，训练比例应越低，以避免模型过度依赖强条件，从而影响弱条件的学习效果。

2. 多模态条件注入

OmniHuman 将条件分为两类：驱动条件和外观条件。

驱动条件：音频特征通过 cross-attention 实现条件注入，姿势特征通过 Heatmap 特征编码后与 Noise 特征拼接实现条件注入，文本特征则保持了 MMDiT 的条件注入方式。
外观条件：OmniHuman 没有采用单独的参考图网络（Reference Net），而是直接利用去噪声网络（Denoising Net）对输入图像进行特征编码，复用了 backbone 的特征提取方式。

3. 多阶段训练

OmniHuman 采用多阶段训练方法，逐步引入文本、音频和姿势条件。具体来说：

第一阶段仅使用文本和图像条件，不涉及音频和姿势条件。
第二阶段引入音频条件，但不使用姿势条件。
第三阶段同时使用所有条件，并逐步降低各条件的训练比例。

4. 扩散变换器架构

OmniHuman 基于扩散变换器（Diffusion Transformer）架构，使用 3DVAE 将视频编码到潜在空间，并通过流匹配进行去噪训练。这种架构能够处理大规模数据，并学习自然的运动模式。

5. 推理阶段

在推理阶段，OmniHuman 采用无分类器指导（CFG）和 CFG 退火策略，以平衡生成视频的表现力和计算效率。这种策略能够有效减少生成视频中的瑕疵（如皱纹），同时保持良好的唇部同步和动作表现力。

实验结果与性能评估

OmniHuman 在多个指标上显著优于现有方法。例如，在表1中，OmniHuman 在音频驱动的肖像动画任务中，无论是在 CelebV-HQ 还是 RAVDESS 数据集上，均在视觉质量（IQA）、唇部同步（Sync-C）和动作多样性（HKV）等指标上取得了最佳性能。在表2中，OmniHuman 在音频驱动的半身动画任务中也表现出色，尤其是在手势关键点置信度（HKC）和视觉质量（IQA）方面。

此外，表3展示了不同音频训练比例的主观比较结果。实验表明，当音频训练比例为50%时，模型在身份一致性、唇部同步精度和视觉质量方面表现最佳。

定性分析与生成效果

OmniHuman 生成的视频在视觉上更加逼真，支持多种肖像内容（如面部特写、半身、全身），并能处理复杂的人体姿态和人与物体的交互。例如，图1展示了 OmniHuman 根据输入音频和图像生成的视频帧，生成结果不仅匹配音频的节奏，还能自然地展示头部和手势动作。此外，OmniHuman 还支持多种输入形式和驱动模态（如音频驱动、视频驱动和组合驱动信号），进一步提升了模型的灵活性。

OmniHuman 通过混合多种条件信号进行训练，有效解决了人类动画数据扩展的难题，并在生成质量和多样性上取得了显著提升。该框架不仅能够生成高质量的人类视频，还支持多种输入形式和驱动模态，为未来的人类动画研究提供了新的方向。

论文链接：https://arxiv.org/pdf/2502.01061

项目链接：OmniHuman-1 Project