MMAudio - 自动给视频配音效

server/2024/12/23 15:30:21/

MMAudio 在给定视频和/或文本输入的情况下生成同步音频。我们的关键创新是多模式联合训练,它允许对广泛的视听和音频文本数据集进行训练。此外,同步模块将生成的音频与视频帧对齐。

419 Stars 26 Forks 2 Issues NA 贡献者 MIT License Python 语言

代码: GitHub - hkchengrex/MMAudio: [arXiv 2024] Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

主页: MMAudio

更多AI开源软件:AI开源 - 小众AI

主要功能

一、视频到音频合成
  • **功能概述**:根据视频内容自动生成适配的音频,包括背景音乐、音效以及环境音。
  • **技术特点**:利用深度学习架构,特别是神经网络和时间分析技术,处理视频中的视觉信息,生成自然适配的音频。
  • **应用场景**:适用于影视制作、短视频创作等领域,可以简化传统音效制作的流程,提高制作效率。
二、文本到音频合成
  • **功能概述**:根据输入的文本描述生成匹配的音频效果。
  • **技术特点**:通过理解和分析文本内容,生成与文本描述相符的音效,如环境背景音、脚步声、爆炸声等。
  • **应用场景**:适用于有声读物制作、游戏配音、广告配音等领域,可以根据文本内容生成所需的音效,提升用户体验。
三、多模态联合训练
  • **功能概述**:支持在包含音频、视频和文本的数据集上进行训练,提升模型对不同模态数据的理解和生成能力。
  • **技术特点**:通过多模态联合训练,使模型能够更好地理解和生成与视频或文本内容相匹配的音频。
  • **应用场景**:适用于各种需要音频合成的场景,如虚拟现实、增强现实等领域,可以提供更加真实、自然的音频体验。
四、同步模块
  • **功能概述**:确保生成的音频与视频帧或文本描述精确对齐,实现高度同步。
  • **技术特点**:通过先进的同步机制,使生成的音频与视频内容或文本描述的时间轴完全对应。
  • **应用场景**:适用于需要精确同步音频和视频的场景,如影视制作、动画制作等领域,可以确保音频和视频的完美配合。
五、高质量音频合成
  • **功能概述**:支持高质量的音频合成,生成的音频自然、清晰。
  • **技术特点**:采用先进的音频合成技术,确保生成的音频质量高、效果好。
  • **应用场景**:适用于对音频质量有较高要求的场景,如音乐制作、专业配音等领域。

安装和使用

先决条件

我们建议使用 miniforge 环境。

  • Python 3.9+
  • PyTorch 2.5.1+ 和相应的 torchvision/torchaudio (选择您的 CUDA 版本 https://pytorch.org/,建议使用 pip 安装)
  1. 如果尚未满足,请安装先决条件:
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 --upgrade

(或者您的 GPU/驱动程序支持的任何其他 CUDA 版本)

  1. 克隆我们的存储库:
git clone https://github.com/hkchengrex/MMAudio.git
  1. 使用 pip 安装(在尝试此操作之前先安装 pytorch!):
cd MMAudio
pip install -e .

(如果遇到文件“setup.py”未找到错误,请使用 pip install --upgrade pip 升级您的 pip)

预训练模型:

当您运行演示脚本时,模型将自动下载。MD5 校验和在 mmaudio/utils/download_utils.py​ 中提供。这些模型也可以在 https://huggingface.co/hk Chengrex/MMAudio/tree/main 上找到

要运行该模型,您需要四个组件:流量预测网络、视觉特征提取器(Synchformer 和 CLIP,CLIP 将自动下载)、VAE 和声码器。VAE 和声码器特定于采样率(16kHz 或 44.1kHz),而不是模型大小。44.1kHz 声码器将自动下载。

预期的目录结构(完整):

MMAudio
├── ext_weights
│   ├── best_netG.pt
│   ├── synchformer_state_dict.pth
│   ├── v1-16.pth
│   └── v1-44.pth
├── weights
│   ├── mmaudio_small_16k.pth
│   ├── mmaudio_small_44k.pth
│   ├── mmaudio_medium_44k.pth
│   ├── mmaudio_large_44k.pth
│   └── mmaudio_large_44k_v2.pth
└── ...

预期的目录结构(最小,仅适用于推荐模型):

MMAudio
├── ext_weights
│   ├── synchformer_state_dict.pth
│   └── v1-44.pth
├── weights
│   └── mmaudio_large_44k_v2.pth
└── ...

演示

默认情况下,这些脚本使用 large_44k_v2​ 模型。在我们的实验中,推理仅需要大约 6GB 的 GPU 内存(16 位模式),这应该适合大多数现代 GPU。

命令行界面

与 demo.py​

python demo.py --duration=8 --video=<path to video> --prompt "your prompt" 

输出( .flac​ 格式的音频和 .mp4​ 格式的视频)将保存在 ./output​ 中。请参阅该文件以获取更多选项。只需省略文本到音频合成的 --video​ 选项即可。默认输出(和训练)持续时间为 8 秒。更长/更短的持续时间也可以,但与训练持续时间的较大偏差可能会导致质量下降。

音频接口

支持视频转音频和文本转音频合成。如有必要,请使用端口转发。我们的默认端口是 7860​ 您可以在 gradio_demo.py​ 中更改。

python gradio_demo.py

http://www.ppmy.cn/server/152525.html

相关文章

分布式系统架构3:服务容错

这是小卷对分布式系统架构学习的第3篇文章&#xff0c;虽然知道大家都不喜欢看纯技术文章&#xff0c;写了也没多少阅读量&#xff0c;但是个人要成长的话&#xff0c;还是需要往深一点的技术上去探索的 1.为什么需要容错 分布式系统的本质是不可靠的&#xff0c;一个大的服务…

服务器数据恢复—RAIDZ离线硬盘数超过热备盘数导致阵列崩溃的数据恢复案例

服务器存储数据恢复环境&#xff1a; ZFS Storage 7320存储阵列中有32块硬盘。32块硬盘分为4组&#xff0c;每组8块硬盘&#xff0c;共组建了3组RAIDZ&#xff0c;每组raid都配置了热备盘。 服务器存储故障&#xff1a; 服务器存储运行过程中突然崩溃&#xff0c;排除人为误操…

键盘常见键的keyCode和对应的键名

常见键的keyCode和对应的键名 键名keyCode描述Enter13回车键Escape27Esc键Backspace8退格键Tab9Tab键Space32空格键Arrow Up38向上箭头Arrow Down40向下箭头Arrow Left37向左箭头Arrow Right39向右箭头Shift16Shift键Control17Ctrl键Alt18Alt键Caps Lock20大写锁定键F1112F1键F…

基于单片机的步进电机控制系统的设计研究

摘要 :随着我国社会经济结构的不断优化与升级,加工制造工业得到了长足发展 。 加工制造工业体系的日益成熟,使得步进电机应用的范围越来越广泛,逐渐成为工业生产与社会生活中必不可少的工业组成。 因此如何提升步进电机的性能、 实现步进电机控制系统的科学设计,就成为现阶…

鸿蒙操作系统简介

华为鸿蒙系统&#xff08;HUAWEI HarmonyOS&#xff09;&#xff0c;是华为公司于2019年8月9日在东莞举行的华为开发者大会&#xff08;HDC.2019&#xff09;上正式发布的面向全场景的分布式操作系统&#xff0c;可以创造一个超级虚拟终端互联的世界&#xff0c;将人、设备、场…

Linux驱动开发应用层 2 点亮一个LED

目录 先来聊聊sysfs sysfs的具备的优势 LED在哪里&#xff1f; 先来聊聊sysfs 我们下面首先简单聊一下sysfs。他很重要的原因是因为我们跟底下的设备打交道&#xff0c;就是可以透过我们的sysfs来操作我们底层的设备&#xff0c; sysfs是Linux内核中的一个虚拟文件系统&…

【Python系列】Python 中的逻辑表达式解析:`not all(...)`的应用

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

HDR视频技术之八:色域映射

在之前的色调映射章节中提到&#xff1a; 在色调映射环节&#xff0c; 为了便于操作&#xff0c; 且不使图像颜色产生巨大失真&#xff0c; 色调映射算法通常会仅处理图像亮度信息&#xff0c; 将 HDR 图像亮度映射到 SDR图像亮度域中&#xff0c; 通过原 HDR 图像的颜色信息&a…