字节跳动发Seed-TTS语音合成模型,可模仿任意人的声音,效果逼真

devtools/2024/9/23 4:52:08/

前期我们介绍过很多语音合成的模型,比如ChatTTS,微软语音合成大模型等,随着大模型的不断进步,其合成的声音基本跟真人没有多大的区别。本期介绍的是字节跳动自家发布的语音合成模型Seed-TTS。

Seed-TTS 推理包含四个功能模块:

  • (1) 语音标记器从参考语音中学习标记信息。
  • (2)自回归语言模型根据条件文本和语音生成语音标记。
  • (3) 扩散变换器模型以从粗到细的方式生成语音标记的连续语音表示。
  • (4) 声学声码器从扩散输出中生成更高质量的语音。

系统模型框架

Seed-TTS是一个大规模自回归文本转语音 (TTS) 模型,能够生成与人类语音几乎没有区别的语音。 Seed-TTS 作为语音生成的基础模型,在语音上下文学习方面表现十分出色,在说话者相似度和自然度方面的表现在客观和主观评估方面都与真实人类语音相匹配。 Seed-TTS 对各种语音属性(例如情感)提供卓越的可控性,并且能够为说话者生成高度表现力和多样化的语音。Seed-TTS 可以根据说话者的声音,模仿成另外一个语言的语音,且情感,音色等跟原始声音没有太大区别。

中英文转换

此外,Seed-TTS 使用了一种用于语音分解的自蒸馏方法,以及一种强化学习方法来增强模型的鲁棒性、说话人的相似性和可控性。Seed-TTS 模型的非自回归 (NAR) 变体,名为 Seed-TTSDiT,它采用完全基于扩散模型的架构。与之前基于 NAR 的 TTS 系统不同,Seed-TTSDiT 不依赖于预先估计的音素持续时间,并通过端到端处理执行语音生成。该变体在客观和主观评估中都达到了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。且Seed-TTS 支持不同的情感输入,比如:高兴,生气,恐惧等情感。

不同情感的声音

且模型支持输入原始音频文件,并根据要求,输出不同情感的语音。

情感更换

不仅如此,模型支持修改语音文本的内容,并合成另外修改完成的语音。

修改语音内容

Seed-TTS还支持语音语速的调节,不仅如此,还支持多人说话的方式,这样一个长篇语音小说就可以完成了。当然模型也支持输入视频,把视频中的音频转换成另外一种语音。

https://bytedancespeech.github.io/seedtts_tech_report/
更多 transformer 教程,参考头条:人工智能更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技

 动画详解transformer  在线教程

 


http://www.ppmy.cn/devtools/92175.html

相关文章

高性能日志系统 日志输出模块逻辑

概述 该模块主要实现了一个日志系统的输出模块,通过多态、工厂模式等设计模式,构建灵活的日志输出架构。 功能:格式化完成的标准日志消息,输出到指定为止拓展:支持同时将日志落地到不同的位置,也就是输出日…

【学习笔记】A2X通信的协议(五)- A2X PC5广播模式

3GPP TS 24.577 V18.1.0的技术规范,主要定义了5G系统中A2X通信的协议方面,特别是在PC5接口和Uu接口上的A2X服务。以下是文件的核心内容分析: 6.1.3 PC5上的广播模式A2X通信 6.1.3.1 概述 本条款描述了广播模式操作中PC5参考点上的A2X通信。…

ES6 export import

1.Export 模块是独立的文件,该文件内部的所有的变量外部都无法获取。如果希望获取某个变量,必须通过export输出, 声明的同时导出变量、函数以及类 // profile.js export var firstName Michael; export var lastName Jackson; export var…

文件共享服务NFS(服务名nfs,端口tcp/2049)

目录 前言 配置文件 工作原理 NFS服务器的配置 查看服务器是否安装 查看服务器状态 开启服务 编写配置文件 客户端挂载 前言 NFS(Network File System)是一种分布式文件系统协议,它允许网络中的不同计算机共享文件和目录&#xff0…

【OpenCV C++20 学习笔记】霍夫直线变换-Hough Line Transform

霍夫线条变换 原理标准和概率霍夫变换 API标准霍夫变换概率霍夫直线变换 实例 原理 霍夫直线变换一般用来检测直线,它要在边缘检测之后才能应用。 在数学上要定义一条直线通常有2种方法: 笛卡尔坐标系:两点确定一条直线,即 ( x…

谷粒商城实战笔记-144-性能压测-性能监控-堆内存与垃圾回收

文章目录 一,两种类型的应用1,CPU密集型应用示例:Apache Spark 2,IO密集型应用示例:MySQL 二,监控 我们通过压力测试对接口进行了性能评估,以确定其是否满足性能要求。 如果不符合,就…

可视化案例(3)

疫情地图 1.分析数据 通过三方网站等对大量数据进行分析,解析出数据中的key:value解析网站:JSON在线视图查看器(Online JSON Viewer) 2.导包 导入将使用的包和模块 # 导包 import json 3.获取数据 文本数据全部获取 # 读取数据 f ope…

【鸿蒙开发基础学习】TS到ArkTS适配指导

什么是ArkTS ArkTS提供了语言运行时相关能力 ArkTS是HarmonyOS优选的主力应用开发语言。ArkTS围绕应用开发在TypeScript(简称TS)生态基础上做了进一步扩展,保持了TS的基本风格,同时通过规范定义强化开发期静态检查和分析&#xf…