大模型语音生成入门(基于cosyvoice)

embedded/2025/3/14 5:30:02/

主要参考资料:
从离散编码到语音生成:深入浅出CosyVoice语音生成大模型: https://www.bilibili.com/video/BV1oS411c76o?spm_id_from=333.788.videopod.sections&vd_source=ef5b6d43cf1d4ed823db3e9133e97d2d

目录

  • 语音合成 与 大模型语音生成
  • cosyvoice
    • 自回归transformer训练和推理
    • 常微分扩散模型Flow matching训练
    • 声码器Vocoder

语音合成 与 大模型语音生成

下面是一段火山引擎对大模型语音生成的说明。(注意合成 与 生成)
在这里插入图片描述
传统的语音合成方法只局限在把对应的文本内容合成出来,对于语音的自然度、富文本以及多情感的关注其实比较少。
在这里插入图片描述
而语音生成大模型在输入和输出方面表现都要更丰富。
在这里插入图片描述

cosyvoice

在这里插入图片描述
主要包含三个模块:
(1)从富文本、参考语音等输入中去生成语音token这样一个自回归的transformer模型
(2)从语音token重构出语音特征的常微分扩散模型Flow Matching
(3)从语音特征合成出语音波形的声码器vocoder

自回归transformer训练和推理

通常是根据给定的文本 或者 其他的一个输入,以及之前的真实语音的token来预测下一个token应该是哪一个
在这里插入图片描述
在这里插入图片描述

常微分扩散模型Flow matching训练

在这里插入图片描述
在这里插入图片描述

声码器Vocoder

在这里插入图片描述


http://www.ppmy.cn/embedded/172417.html

相关文章

openai-cua-sample-app - 使用计算机的 Agent示例应用

文章目录 一、关于 openai-cua-sample-app概述抽象 二、设置与运行三、CLI 使用运行示例(可选) 四、计算机环境Docker 设置主机环境设置 五、函数调用风险与安全考虑 一、关于 openai-cua-sample-app CUA : Computer Using Agent (CUA) 开始使用 OpenA…

使用websocket,注入依赖service的bean为null

问题:依赖注入失败,service获取不到,提示null 这是参考代码 package com.shier.ws;import cn.hutool.core.date.DateUtil; import cn.hutool.json.JSONObject; import cn.hutool.json.JSONUtil; import com.google.gson.Gson; import com.s…

色板在数据可视化中的创新应用

色板在数据可视化中的创新应用:基于色彩感知理论的优化实践 引言 在数据可视化领域,色彩编码系统的设计已成为决定信息传递效能的核心要素。根据《Nature》期刊2024年发布的视觉认知研究,人类大脑对色彩的识别速度比形状快40%,色…

flutter dio库 源码赏析

1. factory函数 //调用factory构造方法后,实际返回的是Dio的子类 Dio dio Dio();abstract class Dio {factory Dio([BaseOptions? options]) > createDio(options); } 2. CancelToken 作用:取消操作 CancelToken cancelToken CancelToken();//监听取消 ca…

数据结构-队列(详解)

目录 一、队列的基本概念二、队列的基本操作三、队列的实现方式1. 数组实现队列2. 链表实现队列 四、队列的应用场景五、总结 一、队列的基本概念 队列是一种特殊的线性表,它只允许在表的一端进行插入操作,在另一端进行删除操作。允许插入的一端称为队尾…

golang中具有 “no copy“的类型

在 Go 语言中,某些类型由于特殊用途或底层实现,可能会被标记为 “no copy”,即它们不能被复制,通常是因为复制会导致意外的行为或错误。这些类型主要包括: 1. sync.Mutex、sync.RWMutex 原因:Mutex 是用于…

Node.js学习分享(下)

Node.js Expressexpress的基本用法创建基本的web服务器监听GET请求监听POST请求把内容响应给客户端获取URL中携带的查询参数获取URL中的动态参数 托管静态资源express.static()托管多个静态资源目录挂载路径前缀 Express路由路由模块化 Express中间件Express中间件的调用流程Ex…

C++零基础LeetCode热题100- 128.最长连续序列

128.最长连续序列 题目描述思路步骤实现代码代码详解提交结果注意 题目描述 给定一个未排序的整数数组 nums ,找出数字连续的最长序列(不要求序列元素在原数组中连续)的长度。 请你设计并实现时间复杂度为 O(n) 的算法解决此问题。 思路 …