主要参考资料:
从离散编码到语音生成:深入浅出CosyVoice语音生成大模型: https://www.bilibili.com/video/BV1oS411c76o?spm_id_from=333.788.videopod.sections&vd_source=ef5b6d43cf1d4ed823db3e9133e97d2d
目录
- 语音合成 与 大模型语音生成
- cosyvoice
- 自回归transformer训练和推理
- 常微分扩散模型Flow matching训练
- 声码器Vocoder
语音合成 与 大模型语音生成
下面是一段火山引擎对大模型语音生成的说明。(注意合成 与 生成)
传统的语音合成方法只局限在把对应的文本内容合成出来,对于语音的自然度、富文本以及多情感的关注其实比较少。
而语音生成大模型在输入和输出方面表现都要更丰富。
cosyvoice
主要包含三个模块:
(1)从富文本、参考语音等输入中去生成语音token这样一个自回归的transformer模型
(2)从语音token重构出语音特征的常微分扩散模型Flow Matching
(3)从语音特征合成出语音波形的声码器vocoder
自回归transformer训练和推理
通常是根据给定的文本 或者 其他的一个输入,以及之前的真实语音的token来预测下一个token应该是哪一个
常微分扩散模型Flow matching训练