字节跳动发Seed-TTS语音合成模型,可模仿任意人的声音,效果逼真

embedded/2024/9/23 4:24:34/

前期我们介绍过很多语音合成的模型,比如ChatTTS,微软语音合成大模型等,随着大模型的不断进步,其合成的声音基本跟真人没有多大的区别。本期介绍的是字节跳动自家发布的语音合成模型Seed-TTS。

Seed-TTS 推理包含四个功能模块:

  • (1) 语音标记器从参考语音中学习标记信息。
  • (2)自回归语言模型根据条件文本和语音生成语音标记。
  • (3) 扩散变换器模型以从粗到细的方式生成语音标记的连续语音表示。
  • (4) 声学声码器从扩散输出中生成更高质量的语音。

系统模型框架

Seed-TTS是一个大规模自回归文本转语音 (TTS) 模型,能够生成与人类语音几乎没有区别的语音。 Seed-TTS 作为语音生成的基础模型,在语音上下文学习方面表现十分出色,在说话者相似度和自然度方面的表现在客观和主观评估方面都与真实人类语音相匹配。 Seed-TTS 对各种语音属性(例如情感)提供卓越的可控性,并且能够为说话者生成高度表现力和多样化的语音。Seed-TTS 可以根据说话者的声音,模仿成另外一个语言的语音,且情感,音色等跟原始声音没有太大区别。

中英文转换

此外,Seed-TTS 使用了一种用于语音分解的自蒸馏方法,以及一种强化学习方法来增强模型的鲁棒性、说话人的相似性和可控性。Seed-TTS 模型的非自回归 (NAR) 变体,名为 Seed-TTSDiT,它采用完全基于扩散模型的架构。与之前基于 NAR 的 TTS 系统不同,Seed-TTSDiT 不依赖于预先估计的音素持续时间,并通过端到端处理执行语音生成。该变体在客观和主观评估中都达到了与基于语言模型的变体相当的性能,并展示了其在语音编辑中的有效性。且Seed-TTS 支持不同的情感输入,比如:高兴,生气,恐惧等情感。

不同情感的声音

且模型支持输入原始音频文件,并根据要求,输出不同情感的语音。

情感更换

不仅如此,模型支持修改语音文本的内容,并合成另外修改完成的语音。

修改语音内容

Seed-TTS还支持语音语速的调节,不仅如此,还支持多人说话的方式,这样一个长篇语音小说就可以完成了。当然模型也支持输入视频,把视频中的音频转换成另外一种语音。

https://bytedancespeech.github.io/seedtts_tech_report/
更多 transformer 教程,参考头条:人工智能更多transformer,VIT,swin tranformer
参考头条号:人工智能研究所
v号:启示AI科技

 动画详解transformer  在线教程

 


http://www.ppmy.cn/embedded/94422.html

相关文章

Java面试经验总结之JVM篇(一)

一、知识点汇总 JVM是Java运行基础,卖你是是一定对遇到JVM的相关问题,内容相对集中,但是知识深度要求较高 其中内存模型,类加载机制,GC是重点。性能调优方面更偏向于应用,重点突出实践能力。编译器优化和执…

Java的JVM中的概念之——新生代和老年代

JVM新生代和老年代是JVM中非常重要的概念,那么他们在JVM中扮演者什么样的角色和含义呢? 在Java虚拟机(JVM)的垃圾回收(GC)中,内存被分为不同的区域,其中两个主要区域是新生代&#…

【ElementUI】el-table值相同时合并行

效果图&#xff1a; 大致思路&#xff1a;el-table里添加合并行或列的计算方法span-method <el-table :data"tableList" :span-method"objectSpanMethod"> // 在获取到列表数据tableData后调用此方法 handleTableData(tableData) {let rowSpanArr …

cookie和session的区别

**Cookie** 和 **Session** 是两种在 Web 开发中用来保存用户状态的机制&#xff0c;尽管它们的功能有一些重叠&#xff0c;但它们的工作原理、存储位置、使用场景和安全性各不相同。以下是它们的区别和特点。 一、Cookie #### 1. **存储位置** - **客户端存储**&#xff1a;Co…

月薪5W的项目经理是如何面试的?这份面试攻略请收好!

面试是项目经理求职必须经历的一关&#xff0c;但很多经验不够丰富的项目经理不知道面试会问些什么问题&#xff0c;也不知道要怎么回答&#xff0c;无疑会直接影响面试企业的判断&#xff0c;使项目经理求职受阳.所以&#xff0c;项目经理想要顺利求职&#xff0c;还是有必要掌…

大数据-79 Kafka 集群模式 集群监控方案 JavaAPI获取集群指标 可视化监控集群方案: jconsole、Kafka Eagle

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; 目前已经更新到了&#xff1a; Hadoop&#xff08;已更完&#xff09;HDFS&#xff08;已更完&#xff09;MapReduce&#xff08;已更完&am…

【MongoDB】2.MongoDB导入文件

目录 一、MongoDB Compass 二、mongoimport 1、安装 2、语法&#xff1a; 3、可能出现的错误 三、MongoDB的GridFS 1、介绍 2、语法 一、MongoDB Compass 这个简单&#xff0c;不做赘述 二、mongoimport Mongoimport是一个用于导入数据到MongoDB的工具&#xff0c;默…

Leetcode 17.电话号码的字母组合

目录 题目 方法一 思路 代码 题目 17. 电话号码的字母组合 难度&#xff1a;中等 给定一个仅包含数字 2-9 的字符串&#xff0c;返回所有它能表示的字母组合。答案可以按 任意顺序 返回。 给出数字到字母的映射如下&#xff08;与电话按键相同&#xff09;。注意 1 不对…