OmniHuman:一张图+音频生成逼真视频

news/2025/2/22 3:43:01/

 人工智能咨询培训老师叶梓 转载标明出处

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具(限时免费)。

1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。

CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987

更多分享,关注视频号:sphuYAMr0pGTk27  抖音号:44185842659

现有的端到端人类动画模型在扩展到大规模视频生成任务时面临挑战,主要是因为这些模型依赖于经过严格筛选的数据集,导致大量数据被丢弃,限制了模型的泛化能力和生成效果。此外,现有方法在处理复杂场景(如全身动画、人与物体交互等)时表现不佳。

为了解决这一问题,字节跳动的研究团队提出了一种名为OmniHuman的新框架。OmniHuman基于扩散变换器(Diffusion Transformer),通过在训练阶段混合多种运动相关条件,实现了数据的扩展,并显著提升了生成视频的真实性和多样性。

OmniHuman 的核心方法

OmniHuman 的核心方法是通过一种创新的多模态混合训练策略,结合扩散变换器(Diffusion Transformer)架构,实现高质量的人类动画视频生成

Figure 2 展示了 OmniHuman 的整体框架。OmniHuman 的框架由两部分组成:OmniHuman 模型和全条件训练策略(Omni-Conditions Training Strategy)。OmniHuman 模型基于预训练的 DiT(Diffusion Transformer)架构,能够同时接收多种模态输入(如文本、图像、音频和姿势)进行控制,从而生成逼真的人像视频。

1. 全条件训练策略

OmniHuman 提出了一个渐进式、多阶段的训练方法,根据不同条件对运动的影响程度进行分阶段训练。这一策略遵循两个关键原则:

  • 更强条件的任务可以利用较弱条件的任务及其数据,从而实现数据扩展。例如,音频驱动的任务通常因唇部同步等要求而丢弃大量数据,而这些数据可以用于文本驱动的任务。

  • 条件越强,训练比例应越低,以避免模型过度依赖强条件,从而影响弱条件的学习效果。

2. 多模态条件注入

OmniHuman 将条件分为两类:驱动条件和外观条件。

  • 驱动条件:音频特征通过 cross-attention 实现条件注入,姿势特征通过 Heatmap 特征编码后与 Noise 特征拼接实现条件注入,文本特征则保持了 MMDiT 的条件注入方式。

  • 外观条件:OmniHuman 没有采用单独的参考图网络(Reference Net),而是直接利用去噪声网络(Denoising Net)对输入图像进行特征编码,复用了 backbone 的特征提取方式。

3. 多阶段训练

OmniHuman 采用多阶段训练方法,逐步引入文本、音频和姿势条件。具体来说:

  • 第一阶段仅使用文本和图像条件,不涉及音频和姿势条件。

  • 第二阶段引入音频条件,但不使用姿势条件。

  • 第三阶段同时使用所有条件,并逐步降低各条件的训练比例。

4. 扩散变换器架构

OmniHuman 基于扩散变换器(Diffusion Transformer)架构,使用 3DVAE 将视频编码到潜在空间,并通过流匹配进行去噪训练。这种架构能够处理大规模数据,并学习自然的运动模式。

5. 推理阶段

在推理阶段,OmniHuman 采用无分类器指导(CFG)和 CFG 退火策略,以平衡生成视频的表现力和计算效率。这种策略能够有效减少生成视频中的瑕疵(如皱纹),同时保持良好的唇部同步和动作表现力。

实验结果与性能评估

OmniHuman 在多个指标上显著优于现有方法。例如,在表1中,OmniHuman 在音频驱动的肖像动画任务中,无论是在 CelebV-HQ 还是 RAVDESS 数据集上,均在视觉质量(IQA)、唇部同步(Sync-C)和动作多样性(HKV)等指标上取得了最佳性能。在表2中,OmniHuman 在音频驱动的半身动画任务中也表现出色,尤其是在手势关键点置信度(HKC)和视觉质量(IQA)方面。

此外,表3展示了不同音频训练比例的主观比较结果。实验表明,当音频训练比例为50%时,模型在身份一致性、唇部同步精度和视觉质量方面表现最佳。

定性分析与生成效果

OmniHuman 生成的视频在视觉上更加逼真,支持多种肖像内容(如面部特写、半身、全身),并能处理复杂的人体姿态和人与物体的交互。例如,图1展示了 OmniHuman 根据输入音频和图像生成的视频帧,生成结果不仅匹配音频的节奏,还能自然地展示头部和手势动作。此外,OmniHuman 还支持多种输入形式和驱动模态(如音频驱动、视频驱动和组合驱动信号),进一步提升了模型的灵活性。

OmniHuman 通过混合多种条件信号进行训练,有效解决了人类动画数据扩展的难题,并在生成质量和多样性上取得了显著提升。该框架不仅能够生成高质量的人类视频,还支持多种输入形式和驱动模态,为未来的人类动画研究提供了新的方向。

论文链接:https://arxiv.org/pdf/2502.01061

项目链接:OmniHuman-1 Project 


http://www.ppmy.cn/news/1574045.html

相关文章

基于SpringBoot+Vue高校就业领航管理系统

作者简介:✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌ 主要内容:🌟Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能…

面试知识点2

文章目录 1. Linux 与 DockerLinux 基本指令VMware 安装 CentOSDocker 拉取镜像创建容器、部署 Spring Boot 项目 2. 关系型数据库 MySQL数据库语法多表关联查询数据库索引 3. 事务与死锁事务的隔离级别死锁的原因和避免方法 4. 排序算法与数据结构二分查找快速排序常见数据结构…

java面试场景问题

还在补充,这几天工作忙,闲了会把答案附上去,也欢迎各位大佬评论区讨论 1.不用分布式锁如何防重复提交 方法 1:基于唯一请求 ID(幂等 Token) 思路:前端生成 一个唯一的 requestId(…

面试基础--分布式任务调度系统设计方案

分布式任务调度系统设计方案 以下是一个基于实际项目经验设计的分布式任务调度系统方案,结合北京互联网大厂面试要求,涵盖架构图、调用关系图、设计图和数据流转时序图。 1. 系统概述 分布式任务调度系统主要用于处理高并发、大规模的任务分发和执行场…

基于TCP与UDP协议的性能测试研究

在当代网络通信体系里,TCP(传输控制协议)和UDP(用户数据报协议)是传输层最为常用的两种协议。它们各自具备独特属性,适用于不同应用场景。本文通过对TCP和UDP协议开展性能测试,深入剖析其在多样…

银河麒麟系统安装mysql5.7【亲测可行】

一、安装环境 cpu:I5-10代; 主板:华硕; OS:银河麒麟V10(SP1)未激活 架构:Linux 5.10.0-9-generic x86_64 GNU/Linux mysql版本:mysql-5.7.34-linux-glibc2.12-x86_64.ta…

k8s的资源说明 cpu 内存 requests usage limits

一、k8s资源配置 在 Kubernetes 中,有三个非常重要的资源概念,分别是资源请求(Requests)、资源使用率(Usage) 和 资源限制(Limits) 1、资源请求 Requests 资源请求 是 Pod 启动时…

Spring Boot 常用注解详解

文章目录 Spring Boot 常用注解详解1. Spring Boot 核心注解1.1 SpringBootApplication1.2 Configuration1.3 ComponentScan 2. Bean 相关注解2.1 Bean2.2 Component2.3 Service2.4 Repository2.5 Controller 和 RestController 3. 依赖注入注解3.1 Autowired3.2 Qualifier3.3 …