VITS开源项目汇总(更新至2023-06-01)

news/2024/11/8 15:07:58/

一、摘要

VITS理论基础:https://github.com/jaywalnut310/vits

VITS工程实现:GitHub - rhasspy/piper: A fast, local neural text to speech system

VITS一键克隆,中英日三语,Plachtaa/VITS-fast-fine-tuning

VITS中文模型,优质,分块流式推理,PlayVoice/vits_chinese

VITS歌声转换,多人模型,PlayVoice/so-vits-svc-5.0

二、起源

2.1 VITS - 官方版本v1.0

2021 年 6 月 11 日 VITS 论文和代码发布:

论文:Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

代码:https://github.com/jaywalnut310/vits

机构:韩国科学院

会议:ICML 2021

作者其他论文:HiFiGAN、GlowTTS

2.3  PITS - 官方版本v2.0

2023年02月27日 端到端音调可控TTS的无基频变音调推理

论文:PITS: Variational Pitch Inference without Fundamental Frequency for End-to-End Pitch-controllable TTS

机构:VITS团队

代码:https://github.com/anonymous-pits/pits

目的:PITS在VITS的基础上,结合了Yingram编码器、Yingram解码器和对抗式的移频合成训练来实现基音可控性。

三、官方评测

2021 年 10 月 15 日 VITS 评估论文发布:

论文:ESPnet2-TTS Extending the Edge of TTS Research

代码:https://github.com/espnet/espnet/tree/master/espnet2/gan_tts/vits

机构:开源机构 ESPnet、卡梅隆大学、东京大学等

目的:对先进的语音合成系统进行评估,尤其是 VITS;ESPnet 提供的 152 个预训练模型(ASR+TTS)中有 48 为 VITS 语音合成模型。

四、优秀延伸

4.1 YourTTS

2021 年 12 月 4 日 VITS 相关论文:

论文:YourTTS:Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone

代码:https://edresson.github.io/YourTTS/

机构:开源机构 coqui-ai/TTS

目的:基于 VITS 实现跨语言语音合成和声音转换

4.2 VoiceMe 典型应用场景

2022年3月30日 VoiceMe:TTS中的个性化语音生成

论文:VoiceMe: Personalized voice generation in TTS

代码:https://github.com/polvanrijn/VoiceMe

机构:University of Cambridge etc

目的:使用来自最先进的说话人验证模型(SpeakerNet)的说话人嵌入来调节TTS模型。展示了用户可以创建与人脸、艺术肖像和卡通照片非常匹配的声音;使用wav2lip合成口型。

五、模型优化

5.1 模型加速

2022年3月30日 Nix-TTS:VITS模型的加速

论文:Nix-TTS: An Incredibly Lightweight End-to-End Text-to-Speech Model via Non End-to-End Distillation

代码:https://github.com/choiHkk/nix-tts

演示:https://github.com/rendchevi/nix-tts

2022年10月31日 VITS加速

论文:Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier Transform

代码:https://github.com/MasayaKawamura/MB-iSTFT-VITS

机构: University of Tokyo, Japan,LINE Corp., Japan.

目的:比VITS快4.1倍,音质无影响;1)用简单的iSTFT部分地替换计算上最昂贵的卷积(2倍加速),2)PQMF的多频带生成来生成波形。

5.2 无标注训练

2022年10月6日 无标注训练

论文:Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus

代码:https://github.com/hcy71o/TransferTTS

机构:三星等

目的:使用大规模无标注语料训练TTS;使用wav2vec2.0;

5.3 C++支持

2023年1月 VITS onnx推理代码

代码:https://github.com/rhasspy/piper

机构:Rhasspy

目的:可导出onnx模型的VITS训练代码;C++推理代码;提供安装包,和预训练模型;支持平台 desktop Linux && Raspberry Pi 4;

六、变声器

6.1 FreeVC

  2022年10月28日 基于VITS架构的变声

论文:FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion

代码:https://github.com/olawod/freevc

目的:本文采用了端到端的VITS框架来实现高质量的波形重构,并提出了无需文本标注的干净内容信息提取策略。通过在WavLM特征中引入信息瓶颈,对内容信息进行分解,并提出基于谱图大小调整的数据增强方法,以提高提取内容信息的纯度。

6.2 QuickVC

2023年2月 VITS 变声 QuickVC

论文:QuickVC: Many-to-any Voice Conversion Using Inverse Short-time Fourier Transform for Faster Conversion

代码:https://github.com/quickvc/QuickVoice-Conversion

目的:SoftVC + VITS + iSTFT

6.3  PITS - 官方版本v2.0

2023年02月27日 端到端音调可控TTS的无基频变音调推理

论文:PITS: Variational Pitch Inference without Fundamental Frequency for End-to-End Pitch-controllable TTS

机构:VITS团队

代码:https://github.com/anonymous-pits/pits

目的:PITS在VITS的基础上,结合了Yingram编码器、Yingram解码器和对抗式的移频合成训练来实现基音可控性。

七、语音克隆

7.1 HierSpeech

2023年1月 语音克隆

论文:HierSpeech: Bridging the Gap between Text andSpeech by Hierarchical Variational Inference usingSelf-supervised Representations for Speech Synthesis

机构:Korea University

代码:https://github.com/CODEJIN/HierSpeech

目的:利用自我监督的语音表示作为额外的语言表示,以弥合文本和语音之间的信息差距。HierSpeech达到了+0.303 比较平均意见得分,音素错误率从9.16%降低到5.78%。可以利用自我监督的语音来适应新的说话人而没有标注。

八、Zero-short 声音克隆

8.1 SNAC-非官方实现

2022年12月01日 zero-short语音克隆

论文:SNAC : Speaker-normalized Affine Coupling Layer in Flow-based Architecture for Zero-Shot Multi-Speaker Text-to-Speech

机构:Seoul National University & Samsung

代码:https://github.com/hcy71o/SNAC

主页:https://byoungjinchoi.github.io/snac/

目的:基于微软的说话人自适应器;在VITS的Flow层中嵌入adapter,实现zero-short语音克隆;我们通过引入一个说话人归一化仿射耦合(SNAC)层来改进先前的说话人条件化方法,该层允许以零拍方式利用基于归一化的条件化技术来合成看不见的说话人语音。

8.2  NaturalSpeech 2

2023年4月01日 zero-short语音克隆

论文:NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers

机构:微软

代码:https://github.com/lucidrains/naturalspeech2-pytorch

代码:https://github.com/rishikksh20/NaturalSpeech2

代码:GitHub - CODEJIN/NaturalSpeech2

代码:https://github.com/adelacvg/NS2VC

目的:捕获人类语音的多样性,诸如说话者身份、韵律和风格,如唱歌;利用神经音频编解码器与残余向量量化器得到量化的潜向量,并使用扩散模型以文本输入为条件来生成这些潜向量;设计了一个语音提示机制,以促进扩散模型学习上下文和时长与音高预测;仅使用语音提示进行新颖的零拍歌唱合成;

8.3 Automatic

2023年5月 zero-shot vits

论文:Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis

代码:https://github.com/cnaigithub/Auto_Tuning_Zeroshot_TTS_and_VC

目的:设计一个zero-shot vits框架;vits loss比较多,loss的平衡对质量影响大,所以提出自动均衡loss的方案。


http://www.ppmy.cn/news/141648.html

相关文章

雷神 ffmpeg_雷神之锤II.NET!

雷神 ffmpeg Scott Stanfield and his motley crew have ported Quake II (125k lines of C) to Managed C(.NET)! Madness! But the good kind of madness...check it out. 斯科特斯坦菲尔德( Scott Stanfield)和他的团队成员已将Quake II(C语言的125k行)移植到托管C (。NET…

雷神之锤3源代码注释(1)

2016.1.10 这是我最后一个寒假了,这个寒假来注释了雷神之锤3。同时希望做出自己的mod。 可编译的雷神之锤3源代码免费下载链接:雷神之锤3源代码下载 时间晚了些,先睡了,后续更新。 by 朽木钢丸

linux运行雷神之锤,Ubuntu下多人射击类游戏 Quake Live 雷神之锤

今天本人开始Ubuntu 游戏系列专题咯,第一个推荐游戏是Quake Live 雷神之锤。Quake Live 雷神之锤是一款可以运行于Windows Linux及mac系统的多人射击游戏,游戏是借助浏览器插件来运行的,可以实现多人联网游戏。本人今天也体验了一下&#xff…

B雷神之锤

新增分组与属性关联 查询分组未关联的属性 删除关联属性 销售属性维护 规格修改 规格参数列表 规格参数新增与VO 品牌分类关联与级联更新 显示完整的分类信息 获取分类属性分组 分组校验 字符串都是用blank 统一异常处理 JSR303校验 递归树形结构数据获取

雷神之锤源码linux,雷神之锤3 的源代码查看

Quake-III Arena (雷神之锤3)是90年代的经典游戏之一。该系列的游戏不但画面和内容不错,而且即使计算机配置低,也能极其流畅地运行。这要归功于它3D引擎的开发者约翰-卡马克(John Carmack)。事实上早在90年代初DOS时代,只要能在PC上搞个小动画…

雷神之锤冠军游戏角色高清Mac动态壁纸

雷神之锤冠军游戏角色高清Mac动态壁纸,雷神之锤冠军快节奏的竞技场射击游戏,游戏讲究纯粹的速度和和技巧,雷神之锤冠军游戏角色Mac壁纸适用于10.14及更高系统的Mac动态壁纸,尺寸为3840  2160 来自 “未来软件园” ,…

奎特尔星球|雷神之锤(下)

紧接上篇《奎特尔星球|雷神之锤(上)》,我给大家介绍了雷神之锤—uikiller的基本用法,有人说长按功能可以取名为蓄力攻击、重击,我觉得还真是可以的,但就是感觉招数名字不够大气。在这里还要给大家道个歉,上篇中我说了这…

DeepMind登上Science:“和AI相比,人类都是猪队友”,团战称霸雷神之锤3

栗子 发自 凹非寺 量子位 报道 | 公众号 QbitAI AI组队,比人类战队的成绩好。 AI与人类组队,还是远超人类。 DeepMind为了训练强化学习AI的团队协作能力,选择了雷神之锤3竞技场的夺旗游戏。 从去年到今年,AI不断进化: …