阿里发布 EchoMimicV2 :从数字脸扩展到数字人 可以通过图片+音频生成半身动画视频

ops/2024/11/28 4:44:00/

EchoMimicV2 是由阿里蚂蚁集团推出的开源数字人项目,旨在生成高质量的数字人半身动画视频。以下是该项目的简介:

  1. 主要功能

    1. 音频驱动的动画生成EchoMimicV2 能够使用音频剪辑驱动人物的面部表情和身体动作,实现音频与动画的同步。

    2. 半身动画制作:项目从仅生成头部动画扩展到生成包括上半身的动画。

    3. 简化的控制条件EchoMimicV2 减少了动画生成过程中所需的复杂条件,让动画制作更为简便。

    4. 手势和表情同步:基于手部姿势序列与音频的结合,生成自然且同步的手势和面部表情。

    5. 多语言支持:支持中文和英文驱动,根据语言内容生成相应的动画。

  2. 技术原理

    1. 音频-姿势动态协调(APDH):包括姿势采样和音频扩散,增强细节表现力并减少条件冗余。

    2. 头部局部注意力(Head Partial Attention, HPA):在训练中整合头部数据,增强面部表情的细节。

    3. 特定阶段去噪损失(Phase-specific Denoising Loss, PhD Loss):将去噪过程分为三个阶段,每个阶段都有特定的优化目标。

    4. Latent Diffusion Model(LDM):用变分自编码器(VAE)将图像映射到潜在空间,在训练过程中逐步添加噪声,估计并去除每个时间步的噪声。

    5. ReferenceNet-based Backbone:用ReferenceNet从参考图像中提取特征,保持生成图像与参考图像之间的外观一致性。

  3. 项目地址

    1. 项目官网:antgroup.github.io/ai/echomimic_v2

    2. GitHub仓库:github.com/antgroup/echomimic_v2

    3. HuggingFace模型库:huggingface.co/BadToBest/EchoMimicV2

    4. arXiv技术论文:arxiv.org/pdf/2411.10061

EchoMimicV2 通过其先进的技术,为数字人动画领域带来了革命性的进步,能够广泛应用于娱乐、教育和虚拟现实等多个领域。

AutoDL镜像:

CodeWithGPU | 能复现才是好算法

⚒️ 安装 EchoMimicV2

配置信息:

  • CUDA版本:12.4

  • Pytorch版本:2.5.1+cu124

  • 测试用显卡型号:NVIDIA GeForce RTX 4090 D

  • 显存大小:23.64GB

  • 精度:float16

win整合包:

https://pan.quark.cn/s/5bae49a8750d

需额外安装miniconda

手动下载安装:https://repo.anaconda.com/miniconda/Miniconda3-latest-Windows-x86_64.exe

cmd命令行安装:

curl https://repo.anaconda.com/miniconda/Miniconda3-latest-Windows-x86_64.exe -o miniconda.exe
start /wait "" .\miniconda.exe /S
del miniconda.exe

安装CUDA Toolkit

cuda_12.4.0_551.61_windows.exe

链接:https://pan.quark.cn/s/1cb755a42df4

安装后需重启验证

nvcc --version

解压整合包(注意路径不要有空格/中文)

双击 conda_start.bat启动

Running on local URL: http://127.0.0.1:7860


http://www.ppmy.cn/ops/137257.html

相关文章

Web day02 Js Vue Ajax

目录 1.javascript: 1.js的引入方式: 2.js变量 & 数据类型 & 输出语句: 模板字符串: 3.函数 & 自定义对象: 4. json 字符串 & DOM操作: 5. js事件监听: 6.js的模块化导入或者导出&a…

Unity 中 Application 四种常用目录总结

Unity 中 Application 提供了多种目录路径用于不同场景,以下是四种常用目录路径的区别、用途和跨平台下的具体路径示例: 1. Application.dataPath 描述 指向项目的 数据目录。在编辑器中指向 Assets 目录,打包后的应用程序中是构建的 Data …

docker compose的安装和使用

1. Docker Compose 简介 Docker Compose 是一个工具,用于定义和运行多容器的 Docker 应用。通过编写一个 docker-compose.yml 文件,可以一次性启动所有容器,并且方便管理容器之间的依赖。 2. 安装 Docker Compose 前提条件 确保已安装 Do…

【设计模式】【结构型模式(Structural Patterns)】之桥接模式(Bridge Pattern

1. 设计模式原理说明 桥接模式(Bridge Pattern) 是一种结构型设计模式,用于将抽象部分与实现部分分离,使它们可以独立变化。这种模式有助于解决因实现细节的变化而导致的代码膨胀问题。桥接模式的核心思想是通过组合而不是继承来…

ArcGIS 10.2软件安装包下载及安装教程!

今日资源:ArcGIS 适用系统:WINDOWS 软件介绍:ArcGIS是一款专业的电子地图信息编辑和开发软件,提供一种快速并且使用简单的方式浏览地理信息,无论是2D还是3D的信息。软件内置多种编辑工具,可以轻松的完成地…

上天入地 灵途科技光电技术赋能空间感知

近来,人工智能技术频频亮相各大马拉松赛事,成为引人注目的科技亮点。 11月3日,杭州马拉松首次启用了机器狗作为配速员,以稳定的节奏为选手提供科学的跑步节奏。 11月11日,亦庄半程马拉松的终点处,人形机器…

微信小程序:实现定时拍照与自动上传功能攻略——静音版

在之前的文章中,我介绍过可以用ctx.takePhoto来实现定时拍照,但是在实际使用过程中,会有快门声,影响用户体验感,本文中,我们将介绍如何在微信小程序中实现静音定时拍照功能,并将拍摄的照片上传到…

Elasticsearch中的节点(比如共20个),其中的10个选了一个master,另外10个选了另一个master,怎么办?

大家好,我是锋哥。今天分享关于【Elasticsearch中的节点(比如共20个),其中的10个选了一个master,另外10个选了另一个master,怎么办?】面试题。希望对大家有帮助; Elasticsearch中的节…