TANGO 是由东京大学与 CyberAgent AI Lab 于 2024 年共同研发的开源框架,专注于声音驱动的全身数字人生成。该技术能够根据目标语音音频生成与之同步的全身手势视频,突破了传统数字人技术仅支持面部或上半身动作的局限性。TANGO 的工作原理利用隐式分层音频运动嵌入空间来检索与目标语音匹配的参考视频,并通过扩散插值网络生成平滑的过渡帧,从而实现高保真度和动作同步的视频制作。
教程链接:https://go.openbayes.com/mbPm1
使用云平台:OpenBayes
http://openbayes.com/console/signup?r=sony_0m6v
登录 http://OpenBayes.chttp://OpenBayes.c,在「公共教程」页面,选择「TANGO 数字人生成 Demo」教程。
页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
选择「NVIDIA GeForce RTX 4090」以及「PyTorch」镜像,OpenBayes 平台上线了新的计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。可以使用文章开头的邀请链接,获得 RTX 4090 使用时长!
稍等片刻,待系统分配好资源,当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。
进入 Demo 界面后,在「Upload your audio」处上传音频,在「Your Character」处上传视频,「Seed」可设置随机种子数。最后点击「Generate Video」生成。
注意事项:
- 视频背景需干净、无多余元素,最好为纯色背景。如果背景元素过多或杂乱,可能导致背景提取失败。
- 视频脸部需清晰,人脸应占据画面主题部分。