使用20分钟语音数据进行语音复刻

news/2024/10/17 22:13:05/

最近做了一些tts方面的工作,其中一项就是音色克隆,调研了许多开源项目,经过对比发现百度的开源项目paddlespeech的效果还不错,项目的活跃度也很高,比较适合初学者或者感兴趣的同学入门。

一、语音克隆模型介绍

目前主流的语音克隆模型是SV2TTS (GE2E + Tacotron2),该模型可以作为基准的baseline模型,在工业界已经有落地的应用。模型的简单结构如下:

主要有三个模块:

1、说话人特征提取

使用GE2E将音频梅尔频谱转换成代表个性特征的固定的向量特征。

2、音色合成

这部分也是tts的模块,将文字的发音序列加上音色的特征合成出梅尔频谱序列,该模型为WaveNet,也是一个seq2seq的模型。

3、声码模型vocoder

该模型将梅尔频谱转换成时域波形样本 ,常用的模型有hifi-gan,这部分模型会影响最终生成声音的音质。

音色克隆主要是在第二个模块做训练。

二、基于微调的音色克隆

使用aishell3开源语音数据可以将上述的几个模块的模型训练到比较高的准确率,音色克隆的意义在于使用少量的语音数据进行音色克隆。

因此考虑微调的方法可以较好地取得不错的效果。在paddlespeech的项目中做一些少量的步骤就可以方便地得到相应的模型。

具体步骤就不详细介绍了,跟着项目的介绍就行。主要时间花费在数据的收集和处理,输入的说话人声音最好是20分钟以上,然后分割成3-5s的较短的句子数据。并进行文字的标注。

最终效果还不错。

 


http://www.ppmy.cn/news/402303.html

相关文章

【项目】—— 语音小管家Sosuke

项目简介 借助图灵机器人和百度语音识别和合成等第三方平台和第三方工具使用C编写一个智能AI对话和语音命令执行的语音管理工具除去交流功能之外还可以执行Linux下相关命令,可执行的命令支持自己配置 项目技术点 C STL中主要是map和unorder_map的使用了解http第三…

lol全队消息怎么发_lol怎么发给所有人 LOL里面怎么给所有人发送消息

LOL发送所有人说话步骤: 1.首先进入游戏中。 2.按下回车会出现聊天界面。 3.输入/all即可实现对当前所有人发送消息。 4.如果无法成功则按键盘上的Esc键打开选项窗口。 5.切换到界面选项卡,勾选聊天栏目中的显示所有人频道的聊天信息并点击“确家是什么&…

机器人布里茨说什么_lol机器说的话

蒸汽机器人——布里茨。虽然布里茨会打败任何挡道的人,但他有一颗金子般的心,包裹在一具铁架内,一层钢壳中。喜欢他的话来看看吧!下面是学习啦小编为你搜集、整理的lol机器说的话,欢迎阅读! lol机器说的话精选: The ti…

UE4原生内置多人语音聊天

一.创建会话 1.创建 创建服务器和加入服务器的UI 2.实现创建会话和加入会话的功能 (1)创建会话功能 (2)加入会话功能 二.配置文件设置 1.DefaultEngine.ini文件配置 (1)在[OnlineSubsystem]下的bHasVoi…

内置语音合成芯片的智能语音扫地机器人方案推荐

扫地机器人行业背景: 随着现在生活水平的提高,越来越多的家庭开始选择智能家居产品。像智能电视、智能空调、智能冰箱等都是我们常见的智能家居产品。作为越来越多家庭清洁必备的吸尘器也逐渐向智能化转变,传统的老式吸尘器也逐渐被智能扫地机…

打游戏用什么蓝牙耳机好?英雄联盟手游推荐蓝牙耳机

蓝牙耳机作为手机周边产品,对于很多人来说,属于必需品。上下班的路上多得是无聊和枯燥,不看个视频或者听个音乐来打发时间,真是觉得时间会非常漫长。但公共场合如果外放音乐的话又会显得没有素质,所以出门带一幅耳机是…

调整计算机的设置怎么退出,英雄联盟怎么退出调电脑音量

1 回答 电脑英雄联盟怎么加好友? 首先进入到LOL英雄联盟中,在右侧好友列表中点击【添加好友】按钮,上面有两个添加好友的方式,点击【通过召唤师名字】这个选项,在里面添加好友即可。另外有和玩家一起玩过游戏的最近的玩家&#x…

美标与欧标耳机区别

NO是常开(NORMAL OPEN),就是通常即未通电状态下,是断开的,通电后在电磁线圈的作用下(吸合)处于闭合状态。NC是常闭(NORMAL CLOSE),就是通常即未通电状态下,是闭合的,通电…