EchoMimicV2 是由阿里蚂蚁集团推出的开源数字人项目,旨在生成高质量的数字人半身动画视频。以下是该项目的简介:
-
主要功能:
-
音频驱动的动画生成:EchoMimicV2 能够使用音频剪辑驱动人物的面部表情和身体动作,实现音频与动画的同步。
-
半身动画制作:项目从仅生成头部动画扩展到生成包括上半身的动画。
-
简化的控制条件:EchoMimicV2 减少了动画生成过程中所需的复杂条件,让动画制作更为简便。
-
手势和表情同步:基于手部姿势序列与音频的结合,生成自然且同步的手势和面部表情。
-
多语言支持:支持中文和英文驱动,根据语言内容生成相应的动画。
-
-
技术原理:
-
音频-姿势动态协调(APDH):包括姿势采样和音频扩散,增强细节表现力并减少条件冗余。
-
头部局部注意力(Head Partial Attention, HPA):在训练中整合头部数据,增强面部表情的细节。
-
特定阶段去噪损失(Phase-specific Denoising Loss, PhD Loss):将去噪过程分为三个阶段,每个阶段都有特定的优化目标。
-
Latent Diffusion Model(LDM):用变分自编码器(VAE)将图像映射到潜在空间,在训练过程中逐步添加噪声,估计并去除每个时间步的噪声。
-
ReferenceNet-based Backbone:用ReferenceNet从参考图像中提取特征,保持生成图像与参考图像之间的外观一致性。
-
-
项目地址:
-
项目官网:antgroup.github.io/ai/echomimic_v2
-
GitHub仓库:github.com/antgroup/echomimic_v2
-
HuggingFace模型库:huggingface.co/BadToBest/EchoMimicV2
-
arXiv技术论文:arxiv.org/pdf/2411.10061
-
EchoMimicV2 通过其先进的技术,为数字人动画领域带来了革命性的进步,能够广泛应用于娱乐、教育和虚拟现实等多个领域。
AutoDL镜像:
CodeWithGPU | 能复现才是好算法
⚒️ 安装 EchoMimicV2
配置信息:
-
CUDA版本:12.4
-
Pytorch版本:2.5.1+cu124
-
测试用显卡型号:NVIDIA GeForce RTX 4090 D
-
显存大小:23.64GB
-
精度:float16
win整合包:
https://pan.quark.cn/s/5bae49a8750d
需额外安装miniconda
手动下载安装:https://repo.anaconda.com/miniconda/Miniconda3-latest-Windows-x86_64.exe
cmd命令行安装:
curl https://repo.anaconda.com/miniconda/Miniconda3-latest-Windows-x86_64.exe -o miniconda.exe
start /wait "" .\miniconda.exe /S
del miniconda.exe
安装CUDA Toolkit
cuda_12.4.0_551.61_windows.exe
链接:https://pan.quark.cn/s/1cb755a42df4
安装后需重启验证
nvcc --version
解压整合包(注意路径不要有空格/中文)
双击 conda_start.bat启动
Running on local URL: http://127.0.0.1:7860