关于微软文本转语音(语音合成)的一些坑

news/2024/10/31 3:26:29/

1. 单个音频时长限制10分钟

文档地址
在这里插入图片描述

2. 多人配音SSML

每次请求 <voice> 标签只能最大50个,参考 #1

3. SDK 在 linux 环境下 报错:gcc 软件无法加载

4. 语音品质问题

使用 SDK 生成的音频声音很差,默认音频流格式为 WAV(16 KHz 或 8 kHz,16 位,单声道 PCM)
参考
在这里插入图片描述

可以使用这个设置提升品质

SpeechConfig config = SpeechConfig.fromSubscription("xxx", "xxx");
config.setSpeechSynthesisVoiceName("zh-CN-YunxiNeural");
config.setSpeechSynthesisOutputFormat(SpeechSynthesisOutputFormat.Riff48Khz16BitMonoPcm);

这里一定要选Riffxxx开头的 后面会讲到

另外

由于音频限制最大时长10分钟的问题,太多文本的情况下只能

  • 控制单次文本长度,分批次文本一个个生成
  • 合并音频 (拼接起来)

========== 音 频 拼 接 大 坑 ======

如果SpeechSynthesisOutputFormat选的不是 Riffxxx 开头的 生成的音频可能无法播放,无法解析。
刚开始还以为是别人SDK的问题…还去 Github 各种搜,百度各种搜,谷歌各种搜…,最后放弃了,后面又想起来 绝对是SpeechSynthesisOutputFormat 的问题,挨个试终于确认了是这个引起。
但不知什么原因…
换了好多个JAVA的语言类库去解析音频也无法解析
就连 ffmpeg 也没法处理
在这里插入图片描述

AudioSystem.getAudioInputStream(audioFile); 也无法解析,报错:javax.sound.sampled.UnsupportedAudioFileException: File of unsupported format

AudioFileIO.read(audioFile); 也无法解析,报错:Exception in thread “main” org.jaudiotagger.audio.exceptions.CannotReadException: outputaudio.wav Wav RIFF Header not valid

在这里插入图片描述


特此记录


http://www.ppmy.cn/news/1195314.html

相关文章

MySQL中如何进行数据加密和安全的设计?

在MySQL中&#xff0c;数据加密和安全设计有多种方式&#xff1a; 加强密码安全&#xff1a;首先&#xff0c;要确保MySQL账户的强密码&#xff0c;避免使用简单的密码或者默认密码。同时&#xff0c;定期更换密码&#xff0c;并尽可能使用复杂的多字符密码。此外&#xff0c;还…

『亚马逊云科技产品测评』活动征文|占了个便宜,12个月的免费云服务器

授权声明&#xff1a;本篇文章授权活动官方亚马逊云科技文章转发、改写权&#xff0c;包括不限于在 Developer Centre, 知乎&#xff0c;自媒体平台&#xff0c;第三方开发者媒体等亚马逊云科技官方渠道 在群里看到有小伙伴说亚马逊可以免费试用服务器&#xff0c;这种好事不得…

u20.04安装slam库

git clone https://github.com/strasdat/Sophus.git // 下载的最新版是模板类的 git checkout a621ff // 切换为非模板类的历史版本 模板类Sophus的依赖库是Eigen(版本为3.3.X)和fmt&#xff0c;需提前安装好Eigen库和fmt库 git clone https://github.c…

研发效能DevOps: Git安装

目录 一、理论 1.Git 2.Git 工具 二、实验 1.Git安装 2.配置Git 3. VS Code加载Git 一、理论 1.Git &#xff08;1&#xff09;简介 Git 是一个分布式版本控制及源代码管理工具;Git 可以为你的项目保存若干快照&#xff0c;以此来对整个项目进行版本管理。 Git 是一个…

西安华为od前端-性格测试(综合测试)

借鉴&#xff1a;华为性格测试注意事项_华为性格测试题目讲解以及注意事项-CSDN博客 原则&#xff1a; &#xff08;1&#xff09;、华为喜欢那种喜欢加班的人&#xff0c;所以必须要能吃苦耐劳不计较报酬   &#xff08;2&#xff09;、华为喜欢中庸&#xff0c;不要表现自己…

Elasticsearch 8.X 如何生成 TB 级的测试数据 ?

1、实战问题 我只想插入大量的测试数据&#xff0c;不是想测试性能&#xff0c;有没有自动办法生成TB级别的测试数据&#xff1f;有工具&#xff1f;还是说有测试数据集之类的东西&#xff1f;——问题来源于 Elasticsearch 中文社区https://elasticsearch.cn/question/13129 2…

【漏洞库】XXL-JOB executor 未授权访问漏洞导致RCE

文章目录 漏洞描述漏洞编号漏洞评级影响版本漏洞复现- EXP 编写 漏洞挖掘修复建议 漏洞描述 XXL-JOB是一个分布式任务调度平台&#xff0c;其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线&#xff0c;开箱即用。XXL-JOB分为adm…

C/C++与圆相关的计算 2021年3月电子学会青少年软件编程(C/C++)等级考试一级真题答案解析

目录 C/C与圆相关的计算 一、题目要求 1、编程实现 2、输入输出 二、算法分析 三、程序编写 四、程序说明 五、运行结果 六、考点分析 C/C与圆相关的计算 2021年3月 C/C编程等级考试一级编程题 一、题目要求 1、编程实现 给出圆的半径&#xff0c;求圆的直径、周长…