男女声语音转换

news/2024/11/17 9:45:59/

男女声特点

(此部分转载自https://blog.csdn.net/u011389706/article/details/78965233)

  1. 男女声基本区别
    男女声主要区别在于男女声基音频率(pitch frequency)的高低。一般女声的音调比男声的音调高,这种不同主要是反应在基音频率(pitch frequency)上。
    在这里插入图片描述
    一般女声的基音频率高于男声,常见的男女声基音频率大致分布范围如下图所示。提取基音频率比较常用的方法就是倒谱(cepstrum)。
    在这里插入图片描述
    声音信号具有短时平稳性,我们认为在10~50ms的数据长度上声音信号是平稳信号,所以可以分帧然后用平稳信号的处理方法进行处理。首先就是分帧操作(这里取40ms帧长,20ms帧移),加窗后求倒谱,根据倒谱便可以求解出基音频率。整个系统流程图如下:
    在这里插入图片描述

GMM模型简介

GMM模型定义
在这里插入图片描述
详细内容有专门博客。

基于GMM语音转换

1.基本原理

具体推导可参考:GMM语音转换学习

在这里插入图片描述

具体实现参考sproket工具。算法具体流程如下:

在这里插入图片描述

GMM模型主要用来转换mcep参数,F0参数用一个单高斯模型转换,ap参数不变。
Global variance(GV)特征是后来针对GMM存在过平滑问题的改进。需求mcep参数方差的均值和方差。对转换后的mcep方差的分布做修正,使其更接近目标语音mcep方差的分布。

2.方法框架图
在这里插入图片描述

3.特征参数提取,利用world声码器

在这里插入图片描述

实验及分析

1.数据准备
在这里插入图片描述
2.参数设置
在这里插入图片描述
设置合适的F0搜索范围,能够有效减少后续转换时F0提取错误,如半F0、双F0的情况。
在这里插入图片描述

设置合适的归一化功率门限值,可有效去除静音帧,从而提升时间对齐准确率。(npow)
在这里插入图片描述

  1. 实验结果
    在这里插入图片描述

在这里插入图片描述

在这里插入图片描述


http://www.ppmy.cn/news/461121.html

相关文章

Android AudioEffect音效移植

原文链接:https://blog.csdn.net/wkw1125/article/details/65632960 AudioEffect构造流程跟踪 为了编写新的音效实现,需要了解Android底层在AudioEffect的底层实现: 在Java层new Equalizer();后,通过JNI进入底层C/C的实现过程。在…

使用PP-TTS实现语音合成

调用 PP-TTS 需要安装的依赖文件 requirements.txt 如下(下面的版本号只是写这篇文章时的版本号,不是最新的版本号): paddlepaddle2.4.2 paddlespeech1.0.1 paddleaudio1.0.1在执行 TTS 任务过程中,会将使用到的 声学…

声音匹配

每个人说话的内容虽然不一样,但是频率基本不会变,所以声音匹配原理是根据频率的分布情况。 import librosa import os from collections import Counter import numpy as np from functools import reducedirpath "/Users/birenjianmo/Desktop/le…

TTS语音模块

我们之前分享过TTS (从文本到语音(Text To Speech))功能,目前有两个模块可以实现此功能: 方案一:使用科大讯飞的XFS5152CE语音合成模块,这个模块优点是接近真人发声,缺点价格偏贵,大…

unity2D:音效Audio音效管理SoundManager

注:本篇为本人的学习笔记,所以有的地方估计只有本人能看懂,详情见b站up:Michael-studio 版本信息:unity2020.3 本节内容: Audio Listener:相当于人的耳朵,默认情况下在main camera…

【ViPER音效插件】,完美提升电脑音乐播放效果

安卓手机也有音效插件,Viper4Android,可能有朋友知道: 根据需求下载FX或XHiFi版(推荐FX) http://vipercn.com/soft-download/viper4android_down/ 这个玩意儿还有电脑版,叫Viper4Windows,大伙…

DY-SV17F 语音模块

大家好,我是程序员小哈。 前几天有个球友在用一个语音模块,遇到了点困难,为了方便调试,小哈哥也买了两个一起玩了一下。 今天小哈哥就来简单分享一下这个模块。 模块概述 DY-SV17F 语音模块,包括IO 分段触发&#x…

如何在3分钟内实现音频变声和趣味音效?

在泛娱乐社交和互动游戏场景中,用户已不再满足于高清的音质体验和实时的互动效果,他们还想要增加趣味性和沉浸感,让声音变得好玩有趣。拍乐云Pano上线了音频变声接口,开发者可以通过 Pano SDK 设置不同的变声效果,如大…