网易有道开源语音合成引擎“易魔声”

news/2024/11/29 2:48:52/

概述

11 月 10 日,网易有道正式上线“易魔声”开源语音合成(TTS)引擎,所有用户可免费在开源社区 GitHub 进行下载使用,通过其提供的 web 界面及批量生成结果的脚本接口,轻松实现音色的情感合成与应用。

据悉,“易魔声”是一款有道自研 TTS 引擎,目前支持中英文双语,包含 2000 多种不同的音色,更有特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。只需简单通过在文本中加入情感的描述提示,就可以自由合成符合自己需求的带有情感的语音,比传统 TTS 更加自然逼真。

随着基于 GAN 等现代 AI 技术的语音能力越来越成熟,实现一个质量较高的 TTS 系统的门槛越来越低。但即使如此,中英双语的高质量、现代 TTS 模块还是不易找到,要在自己的应用与内容中加入高逼真度且高度可控的语音,特别是中英双语的语音,也依然比较麻烦。

网易有道 CEO 周枫表示,“目前该项目还处于初期阶段,现在将这个项目开源,也是希望能帮助到有需求的开发者与内容创作者,并不断扩大高质量 TTS 的应用范围,让产品及应用更好地落地。也期待大家试用后给我们提供更多反馈与建议。”

快速入门

EmotiVoice Docker镜像

尝试EmotiVoice最简单的方法是运行docker镜像。你需要一台带有NVidia GPU的机器。先按照Linux和Windows WSL2平台的说明安装NVidia容器工具包。然后可以直接运行EmotiVoice镜像:

docker run -dp 127.0.0.1:8501:8501 syq163/emoti-voice:latest

现在打开浏览器,导航到 http://localhost:8501 ,就可以体验EmotiVoice强大的TTS功能。

完整安装

conda create -n EmotiVoice python=3.8 -y
conda activate EmotiVoice
pip install torch torchaudio
pip install numpy numba scipy transformers==4.26.1 soundfile yacs g2p_en jieba pypinyin

准备模型文件

git lfs install
git lfs clone https://huggingface.co/WangZeJun/simbert-base-chinese WangZeJun/simbert-base-chinese

推理

1,下载预训练模型, 然后运行:

mkdir -p outputs/style_encoder/ckpt
mkdir -p outputs/prompt_tts_open_source_joint/ckpt

2,将g_*, do_*文件放到outputs/prompt_tts_open_source_joint/ckpt,将checkpoint_*放到outputs/style_encoder/ckpt中.

3,推理输入文本格式是:|<style_prompt/emotion_prompt/content>||.

例如: Maria_Kasper|非常开心|<sos/eos>  uo3 sp1 l ai2 sp0 d ao4 sp1 b ei3 sp0 j ing1 sp3 q ing1 sp0 h ua2 sp0 d a4 sp0 x ve2 <sos/eos>|我来到北京,清华大学.

4,其中的音素(phonemes)可以这样得到:python frontend.py data/my_text.txt > data/my_text_for_tts.txt.

5,然后运行:

TEXT=data/inference/text
python inference_am_vocoder_joint.py \
--logdir prompt_tts_open_source_joint \
--config_folder config/joint \
--checkpoint g_00140000 \
--test_file $TEXT

合成的语音结果在:outputs/prompt_tts_open_source_joint/test_audio.

6,或者你可以直接使用交互的网页界面:

pip install streamlit
streamlit run demo_page.py

参考链接:https://github.com/netease-youdao/EmotiVoice


http://www.ppmy.cn/news/1216945.html

相关文章

git快速上传代码

① git init&#xff1b; 初始化git&#xff0c;之后在文件夹里有.git文件&#xff0c;这个需要 勾选才能查看。 ② git remote add test myFisrtTest: 测试专用 这里的test是自定义的&#xff0c;myFisrtTest: 测试专用 是远程仓库 ③ git branch -a 这里是查看分支 ④ …

2023NOIP A层联测31 暴力操作

题目大意 有一个长为 n n n的序列 a i a_i ai​&#xff0c;你可以选择一个 i i i花费 c x c_x cx​元 ( x ∈ [ 1 , m ] ) (x\in[1,m]) (x∈[1,m])将 a i a_i ai​变为 ⌊ a i x ⌋ \lfloor\dfrac{a_i}{x}\rfloor ⌊xai​​⌋&#xff0c;你总共有 K K K元&#xff0c;求最终…

centralwidget 不能布局

必须要在QT ui中添加一个任意的子控件&#xff08;比如添加了一个pushButton&#xff09;&#xff0c;然后在centralwidget 才能右键设置布局&#xff0c;成功去掉centralwidget 右下角的红色的标记。

桌面便签软件用哪个?10款全球好用的便签软件推荐,告别杂论无章!

在如今的快节奏社会中&#xff0c;我们的生活和工作节奏越来越快&#xff0c;每天面对的信息成倍地增长。有时候&#xff0c;我们需要随手记下一些重要的事情&#xff0c;或者是一些突然的灵感&#xff0c;这时候就需要一款好用的桌面便签软件。 桌面便签软件可以帮助我们更好…

《线性代数》科教版教材必会习题

出一期比较尴尬的博客——有关线代教材的课后题总结~ 之所以说尴尬&#xff0c;主要有两个主要原因&#xff1a;这本科教版第三版的教材&#xff0c;整体看起来并不是那么舒服&#xff0c;甚至被我们的老师吐槽过&#xff0c;更好地选择时同济版的那本紫书——我们学校的新生这…

动作活体检测能力支持自定义扫描动作,开发者接入更高效

随着人脸识别技术在金融、医疗等多个领域的加速落地&#xff0c;网络安全、信息泄露等问题愈为突出&#xff0c;用户对应用稳定性和安全性的要求也更为严格。 华为机器学习服务的动作活体检测能力&#xff0c;支持实时捕捉人脸&#xff0c;根据用户配合做动作可以判断是真实活…

Spring Boot 拦截器 HandlerInterceptor的使用以及WebMvcConfigurer简单介绍

当我们使用Spring Boot构建Web应用程序时&#xff0c;HandlerInterceptor 是一个重要的组件&#xff0c;用于拦截请求的处理过程。HandlerInterceptor 接口定义了在请求处理的不同阶段执行的方法&#xff0c;允许我们在请求到达处理程序之前和之后执行自定义逻辑。 HandlerInt…

TCP和UDP C#代码实战

网络传输的七层结构&#xff1a; 其中TCP和UDP协议在传输层。 TCP/IP协议 TCP/IP中包含了四层架构中的多个协议&#xff0c;取其中两个进行了命名&#xff1a; TCP TCP的特点 粘包问题处理 TCP一次性接收过多数据必然出现粘包&#xff0c;即不同时发送的数据黏连在一…