大模型语音生成入门（基于cosyvoice）

embedded/2025/3/14 5:30:02/

主要参考资料：
从离散编码到语音生成：深入浅出CosyVoice语音生成大模型: https://www.bilibili.com/video/BV1oS411c76o?spm_id_from=333.788.videopod.sections&vd_source=ef5b6d43cf1d4ed823db3e9133e97d2d

语音合成与大模型语音生成

下面是一段火山引擎对大模型语音生成的说明。（注意合成与生成）
在这里插入图片描述
传统的语音合成方法只局限在把对应的文本内容合成出来，对于语音的自然度、富文本以及多情感的关注其实比较少。

而语音生成大模型在输入和输出方面表现都要更丰富。

cosyvoice

在这里插入图片描述
主要包含三个模块：
（1）从富文本、参考语音等输入中去生成语音token这样一个自回归的transformer模型
（2）从语音token重构出语音特征的常微分扩散模型Flow Matching
（3）从语音特征合成出语音波形的声码器vocoder

自回归transformer训练和推理

通常是根据给定的文本或者其他的一个输入，以及之前的真实语音的token来预测下一个token应该是哪一个
在这里插入图片描述

常微分扩散模型Flow matching训练

在这里插入图片描述

声码器Vocoder

在这里插入图片描述

大模型语音生成入门（基于cosyvoice）

目录

语音合成与大模型语音生成

cosyvoice

自回归transformer训练和推理

常微分扩散模型Flow matching训练

声码器Vocoder

相关文章

openai-cua-sample-app - 使用计算机的 Agent示例应用

使用websocket，注入依赖service的bean为null

色板在数据可视化中的创新应用

flutter dio库源码赏析

数据结构-队列（详解）

golang中具有 “no copy“的类型

Node.js学习分享（下）

C++零基础LeetCode热题100- 128.最长连续序列

大模型语音生成入门（基于cosyvoice）

目录

语音合成 与 大模型语音生成

cosyvoice

自回归transformer训练和推理

常微分扩散模型Flow matching训练

声码器Vocoder

相关文章

语音合成与大模型语音生成