柯南变声器的算法实现原理

news/2024/11/28 7:49:12/

1.背景

小时候特别喜欢看柯南,里面有个变声蝴蝶结,让我印象深刻。变声蝴蝶结的作用就是可以把输入的语言转化成其它人的声音。举个例子,如果我有这个语音转换功能,下次录歌的时候就可以用周杰伦的声音录制(唱功还是自己的)。

如果要实现变声功能,这里面包含哪些技术点呢,首先要提取出语音中的3种表征:

  1. 内容表征:输入语音的具体内容

  2. 声纹表征:可以理解为人的声色,每个人都是不同的

  3. 说话风格表征:说话的语气、强弱、快慢等风格相关

通过上述分析,如何实现变声功能就比较好理解了。首先把语音分解为内容表征、声纹表征、说哈风格表征3种特征,然后把声纹表征替换成其他人的声纹特征即可实现。

 

2.声纹识别

那么声纹识别如何实现就成了变声功能的关键。先看下声音信号是什么样的:

大家应该在各种k歌工具中都多少了解些声音信号的样子,基本上声音信号就是一堆脉冲。脉冲是一个时序信号数据,很难处理。

需要对声音时序信号进行傅里叶转换,才能转换成频谱图(学过通信的同学应该比较好理解,通信专业的我当年碰到傅里叶这3个字就抖),转换效果如下图:

屏幕快照 2019-06-03 下午7.24.29.png

 

傅里叶转换后的图其实就成了一个与时间无关的图,所以就可以通过深度学习CNN算法去学习规律。然后就可以实现对于语音信号的声纹的分析和识别。

3.应用场景

上文大概讲了下变声这个功能的大体理论以及声纹识别的算法原理。接下来讲一个适用场景吧,早在14年我在某外资手机巨头做手机软件开发的时候就想到一个场景,通过声纹识别解决骚扰电话。

 

当时想的方法是这样的,首先通过声纹识别把用户所有有关联的人的声纹pattern都识别出来,存储到手机内。一旦有个电话进来,先不着急接通,而是要求拨电话的人说一句话,这时候马上识别他的声纹与手机中存储的声纹pattern作比对。如果拨电话得人的声纹是一个新声纹,则判定为骚扰电话,拒绝接通~现在想想,那时候这种通过声纹识别拦截骚扰电话的想法还是挺超前的

 

谢谢大家,希望能对大家有所帮助~

 


http://www.ppmy.cn/news/559767.html

相关文章

CycleGAN-VC2音色转换,打造属于你自己的变声器

一、理论部分 1、音色与音调的区别 音调反映了声音大波的频率特征,而大波可以分解为不同频率的小波。不同乐器之间因为小波的叠加方式不同,导致大波的形状也不同,所以即使有相同的音调,他们的音色也不相同。 如下图反映了小提琴…

光影魔术手怎么存为透明图

最近在做一张透明图,自己辛辛苦苦抠图抠了半天,一保存,一退出,悲剧了。还是没有变化?为什么? 答:在另存为图片时,格式不能选择JPG格式,因为这个格式不支持透明背景&…

光影魔术手下载|光影魔术手下载

“光影魔术手2017”来浏览、批量重命名相片,本课是这个单元基础知识。教学过程中紧密联系实际生活,培养学生的审美观、团队合作精神。光影魔术手2017下载链接软件介绍光影魔术手是一款是一款类似photoshop的图像处理软件,但是它比ps操作更简单…

MORPHVOX PRO 变声器 软件 Crack

MORPHVOX PRO 变声器 变音的全新层次 在网上聊天和游戏中使你变音 它具有超高语音学习技术,背景取消和高音质特点,将变音带向全新层次。 上好的变音质量 聆听MorphVOX Pro上好的变音质量。 *变音的音频因人而异,但它确实是同一个说话者发出…

TWS耳机发展趋势

蓝牙技术联盟(SIG)在CES2020上发布了新一代蓝牙音频技术标准LE Audio,消费者们对TWS耳机要求的低功耗、高音质、低延迟等性能,都有望在这一标准下得到突破。具体表现在以下4方面: (1)更高清的音…

云计算与OpenStack简介

文章目录 云计算与OpenStack简介什么是云服务模式部署模型 Openstac概述Openstack服务组件 云计算与OpenStack简介 什么是云 云是一种服务,就像我们去餐厅吃饭一样,只需要点菜,不需要知道厨师怎样烹饪食物。在云中,用户也只需要…

6.24作业

grep : 查找字符串, -w : 按单词查找 -R: 实现递归查找,主要用于路径是目录的情况 -i: 不区分大小写 -n:显示行号 find: 查找文件 find 查找的路径 -name 文件名: 在指定路径下,以文件名为条件查找文件 find -name 文件名 : 在当前路径下,查找…