非流式语音合成和流式语音合成

news/2025/1/23 2:34:16/

语音合成技术:https://zhuanlan.zhihu.com/p/113282101
流式语音合成技术揭秘与实践
1、非流式语音合成,一次性输入文字,一次性输出语音,注重语音合成系统的 整体运算速度 ,不适合做语音交互;流式语音合成,可以对输入文本进行分词断句、声学模型和声码器局部合成语音特征和音频,分段传回合成的音频,这种语音合成方式主要关注 首包响应时间 ,首包响应时间越短,用户就会越快收到响应,用户等待时间减少,就不会因为等待回应而失去耐心,因此整体体验感更好,更适合作为语音交互场景的语音合成方案。

2、流式语音合成和语音合成都是语音合成的一种形式,但两者之间存在一定的区别。
语音合成是将文本转换成语音的过程。通常,输入一段文字,语音合成系统会生成一个完整的音频文件,然后再将其播放出来。这种方式音频质量高,但需要等待音频文件生成完毕后才能播放。
而流式语音合成则是能够实时、动态地将文本转换成语音。这种方式可以边输入边输出,无需等待所有音频文件生成完毕,而且可以动态地调整音频的参数,如语速、音调等。它适用于需要实时将文本转换成语音的场合,比如在线客服语音回答、在线语音翻译等。
总之,语音合成更偏向于生成 complete 的结果,而流式语音合成则更适合于一边生成结果一边响应

3、在语音合成中,合成方式分为非流式合成和流失合成,非流失合成指的是一次性传入文本,一次性返回合成的文本音频;流式合成指的是文本传输给TTS时,TTS会分段传回合成的音频,这样可以减少语音合成的等待时间,在播报的同时也在合成,不用等到整段音频合成完再进行播报,所以对于语音合成时间的一个指标就是实时率。实时率等于文字合成所需时长除以文字合成的音频总时长,下面是实时率的计算公式:为什么讲实时率会说到非流失合成和流式合成,因为在流式合成场景中,开始合成的时候也就已经开始播报了,音频合成完成也就播报完成了,不会产生等待的过程,这种过程主要用于语音交互的场景,智能机器人收到语音信号之后,马上就可以给予答复,不会让用户等太久。所以为了确保用户的最佳体验,要求“文字合成所需时长”≤“文字合成出的音频时长”,也就是实时率要小于等于1 。

4、非流式合成适合语音输出,流式合成适合语音交互
语音合成分为非流式合成和流式合成,两者在实时性上有所不同。非流式语音合成,一次性输入文字,一次性输出语音,注重语音合成系统的整体运算速度,不适合做语音交互;流式语音合成,可以对输入文本进行分词断句、声学模型和声码器局部合成语音特征和音频,分段传回合成的音频,这种语音合成方式主要关注首包响应时间,首包响应时间越短,用户就会越快收到响应,用户等待时间减少,就不会因为等待回应而失去耐心,因此整体体验感更好,更适合作为语音交互场景的语音合成方案。

语音交互场景下,离线语音合成为更好的选择
目前,语音合成系统分为云端语音合成和离线语音合成。云端语音合成主要配套端到端或多层神经网络算法,语音输出质量高、算力强,但实时性更差,不适于语音交互;近年来,离线语音合成算法和算力得到逐步更新,一些参数化的合成方案质量也可达到一定的水平,适合于合成语音的交互类场景。

2 语音合成的基本流程
本教程主要讲解基于深度学习的语音合成技术,流水线包含 文本前端(Text Frontend)、声学模型(Acoustic Model) 和 声码器(Vocoder) 三个主要模块:

文本前端模块将原始文本转换为字符/音素
声学模型将字符/音素转换为声学特征,如线性频谱图、mel 频谱图、LPC 特征等
声码器将声学特征转换为波形
在这里插入图片描述

文章来源:https://blog.csdn.net/qq_15821487/article/details/130843708
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ppmy.cn/news/77798.html

相关文章

线程安全问题

1.什么数据可以被多个线程共享? ① 方法区中静态数据可以被多个线程共享 ② 堆中的实例变量也可以被多个线程共享,但是要求多个线程使用同一个对象 ③ 局部变量是不能共享的,多个对象的实例变量也不能共享。 案例1:局部变量是…

在amd64平台构建适用于linux/arm64/v8平台的Docker镜像

在amd64平台构建适用于linux/arm64/v8平台的Docker镜像 该镜像内置了Redis、MySQL、Nginx、JDK11功能 Docker 提供了一种名为 Buildx 的功能,它允许在不同的平台上进行多架构构建。我们可以使用 Buildx 在 amd64 平台上构建适用于 linux/arm64/v8 平台的 Docker 镜像…

十、数据仓库详细介绍(数据质量)流程与工具

上篇我们主要介绍了以下三部分内容。 第一部分,介绍了五种常见的数据管理知识体系,数据质量在所有的知识体系中都有非常重要的地位,数据应用体现数据价值,数据质量为应用提供支撑。 第二部分,我们介绍了数据质量评判的…

【OpenStack】初识

云计算中的操作系统,负责计算能力 三大核心组件:子项目nova负责计算能力、neutron(Quantum):Networking网络、Swift:Storage 存储 共享服务:认证服务、数据库服务等 api、dashboard浏览器界面 主要组件: 1. 2. OpenSt…

软件测试----软件生命周期(研发阶段)

1、市场需求调研 2、可行性研究 3、产品项目立项 4、需求开发 (1)输出《需求规格说明书》 (2)测试团队:参与需求测试(需求评审) 5、设计 (1)开发团队: …

本科生高薪专业top10,全被计算机承包了

在每年被唱衰的行业里,即使如高薪神话的IT行业,也难逃此“劫”——IT不行了!疲软了!现在再入行IT和计算机就是坑! 然而事实上,根据最新数据报告显示,2022届本科毕业生毕业半年后月收入排前10位的…

linux 安装nacos2.0.3

linux 安装nacos2.0.3 Linux 安装 nacos 前必须要有jdk 的环境和数据库 安装Java 下载 http://www.codebaoku.com/jdk/jdk-oracle-jdk1-8.html上传到/usr/local/javaJDK目录解压 tar -zxvf jdk-8u131-linux-x64.tar.gz修改环境变量,在/etc/profile文件里面&#…

【iptables 防火墙设置】

目录 一、iptables概述1、netfilter/iptables 关系 二、四表五链2.1、四表:2.2、五链: 三、规则链之间的匹配顺序四、规则链内的匹配顺序五、iptables的安装配置5.1、安装iptables5.2、配置iptables1、常用的管理选项2、常用的参数3、常用的控制类型4、iptables语法…