一、摘要
VITS理论基础:https://github.com/jaywalnut310/vits
VITS工程实现:GitHub - rhasspy/piper: A fast, local neural text to speech system
VITS一键克隆,中英日三语,Plachtaa/VITS-fast-fine-tuning
VITS中文模型,优质,分块流式推理,PlayVoice/vits_chinese
VITS歌声转换,多人模型,PlayVoice/so-vits-svc-5.0
二、起源
2.1 VITS - 官方版本v1.0
2021 年 6 月 11 日 VITS 论文和代码发布:
论文:Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
代码:https://github.com/jaywalnut310/vits
机构:韩国科学院
会议:ICML 2021
作者其他论文:HiFiGAN、GlowTTS
2.3 PITS - 官方版本v2.0
2023年02月27日 端到端音调可控TTS的无基频变音调推理
论文:PITS: Variational Pitch Inference without Fundamental Frequency for End-to-End Pitch-controllable TTS
机构:VITS团队
代码:https://github.com/anonymous-pits/pits
目的:PITS在VITS的基础上,结合了Yingram编码器、Yingram解码器和对抗式的移频合成训练来实现基音可控性。
三、官方评测
2021 年 10 月 15 日 VITS 评估论文发布:
论文:ESPnet2-TTS Extending the Edge of TTS Research
代码:https://github.com/espnet/espnet/tree/master/espnet2/gan_tts/vits
机构:开源机构 ESPnet、卡梅隆大学、东京大学等
目的:对先进的语音合成系统进行评估,尤其是 VITS;ESPnet 提供的 152 个预训练模型(ASR+TTS)中有 48 为 VITS 语音合成模型。
四、优秀延伸
4.1 YourTTS
2021 年 12 月 4 日 VITS 相关论文:
论文:YourTTS:Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone
代码:https://edresson.github.io/YourTTS/
机构:开源机构 coqui-ai/TTS
目的:基于 VITS 实现跨语言语音合成和声音转换
4.2 VoiceMe 典型应用场景
2022年3月30日 VoiceMe:TTS中的个性化语音生成
论文:VoiceMe: Personalized voice generation in TTS
代码:https://github.com/polvanrijn/VoiceMe
机构:University of Cambridge etc
目的:使用来自最先进的说话人验证模型(SpeakerNet)的说话人嵌入来调节TTS模型。展示了用户可以创建与人脸、艺术肖像和卡通照片非常匹配的声音;使用wav2lip合成口型。
五、模型优化
5.1 模型加速
2022年3月30日 Nix-TTS:VITS模型的加速
论文:Nix-TTS: An Incredibly Lightweight End-to-End Text-to-Speech Model via Non End-to-End Distillation
代码:https://github.com/choiHkk/nix-tts
演示:https://github.com/rendchevi/nix-tts
2022年10月31日 VITS加速
论文:Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier Transform
代码:https://github.com/MasayaKawamura/MB-iSTFT-VITS
机构: University of Tokyo, Japan,LINE Corp., Japan.
目的:比VITS快4.1倍,音质无影响;1)用简单的iSTFT部分地替换计算上最昂贵的卷积(2倍加速),2)PQMF的多频带生成来生成波形。
5.2 无标注训练
2022年10月6日 无标注训练
论文:Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus
代码:https://github.com/hcy71o/TransferTTS
机构:三星等
目的:使用大规模无标注语料训练TTS;使用wav2vec2.0;
5.3 C++支持
2023年1月 VITS onnx推理代码
代码:https://github.com/rhasspy/piper
机构:Rhasspy
目的:可导出onnx模型的VITS训练代码;C++推理代码;提供安装包,和预训练模型;支持平台 desktop Linux && Raspberry Pi 4;
六、变声器
6.1 FreeVC
2022年10月28日 基于VITS架构的变声
论文:FreeVC: Towards High-Quality Text-Free One-Shot Voice Conversion
代码:https://github.com/olawod/freevc
目的:本文采用了端到端的VITS框架来实现高质量的波形重构,并提出了无需文本标注的干净内容信息提取策略。通过在WavLM特征中引入信息瓶颈,对内容信息进行分解,并提出基于谱图大小调整的数据增强方法,以提高提取内容信息的纯度。
6.2 QuickVC
2023年2月 VITS 变声 QuickVC
论文:QuickVC: Many-to-any Voice Conversion Using Inverse Short-time Fourier Transform for Faster Conversion
代码:https://github.com/quickvc/QuickVoice-Conversion
目的:SoftVC + VITS + iSTFT
6.3 PITS - 官方版本v2.0
2023年02月27日 端到端音调可控TTS的无基频变音调推理
论文:PITS: Variational Pitch Inference without Fundamental Frequency for End-to-End Pitch-controllable TTS
机构:VITS团队
代码:https://github.com/anonymous-pits/pits
目的:PITS在VITS的基础上,结合了Yingram编码器、Yingram解码器和对抗式的移频合成训练来实现基音可控性。
七、语音克隆
7.1 HierSpeech
2023年1月 语音克隆
论文:HierSpeech: Bridging the Gap between Text andSpeech by Hierarchical Variational Inference usingSelf-supervised Representations for Speech Synthesis
机构:Korea University
代码:https://github.com/CODEJIN/HierSpeech
目的:利用自我监督的语音表示作为额外的语言表示,以弥合文本和语音之间的信息差距。HierSpeech达到了+0.303 比较平均意见得分,音素错误率从9.16%降低到5.78%。可以利用自我监督的语音来适应新的说话人而没有标注。
八、Zero-short 声音克隆
8.1 SNAC-非官方实现
2022年12月01日 zero-short语音克隆
论文:SNAC : Speaker-normalized Affine Coupling Layer in Flow-based Architecture for Zero-Shot Multi-Speaker Text-to-Speech
机构:Seoul National University & Samsung
代码:https://github.com/hcy71o/SNAC
主页:https://byoungjinchoi.github.io/snac/
目的:基于微软的说话人自适应器;在VITS的Flow层中嵌入adapter,实现zero-short语音克隆;我们通过引入一个说话人归一化仿射耦合(SNAC)层来改进先前的说话人条件化方法,该层允许以零拍方式利用基于归一化的条件化技术来合成看不见的说话人语音。
8.2 NaturalSpeech 2
2023年4月01日 zero-short语音克隆
论文:NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot Speech and Singing Synthesizers
机构:微软
代码:https://github.com/lucidrains/naturalspeech2-pytorch
代码:https://github.com/rishikksh20/NaturalSpeech2
代码:GitHub - CODEJIN/NaturalSpeech2
代码:https://github.com/adelacvg/NS2VC
目的:捕获人类语音的多样性,诸如说话者身份、韵律和风格,如唱歌;利用神经音频编解码器与残余向量量化器得到量化的潜向量,并使用扩散模型以文本输入为条件来生成这些潜向量;设计了一个语音提示机制,以促进扩散模型学习上下文和时长与音高预测;仅使用语音提示进行新颖的零拍歌唱合成;
8.3 Automatic
2023年5月 zero-shot vits
论文:Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis
代码:https://github.com/cnaigithub/Auto_Tuning_Zeroshot_TTS_and_VC
目的:设计一个zero-shot vits框架;vits loss比较多,loss的平衡对质量影响大,所以提出自动均衡loss的方案。