男女声语音转换

男女声语音转换

news/2024/11/17 9:45:59/

男女声特点

（此部分转载自https://blog.csdn.net/u011389706/article/details/78965233）

男女声基本区别
男女声主要区别在于男女声基音频率（pitch frequency）的高低。一般女声的音调比男声的音调高，这种不同主要是反应在基音频率（pitch frequency）上。

一般女声的基音频率高于男声，常见的男女声基音频率大致分布范围如下图所示。提取基音频率比较常用的方法就是倒谱（cepstrum）。

声音信号具有短时平稳性，我们认为在10~50ms的数据长度上声音信号是平稳信号，所以可以分帧然后用平稳信号的处理方法进行处理。首先就是分帧操作（这里取40ms帧长，20ms帧移），加窗后求倒谱，根据倒谱便可以求解出基音频率。整个系统流程图如下：

GMM模型简介

GMM模型定义
在这里插入图片描述
详细内容有专门博客。

基于GMM语音转换

1.基本原理

具体推导可参考：GMM语音转换学习

在这里插入图片描述

具体实现参考sproket工具。算法具体流程如下：

在这里插入图片描述

GMM模型主要用来转换mcep参数，F0参数用一个单高斯模型转换，ap参数不变。
Global variance(GV)特征是后来针对GMM存在过平滑问题的改进。需求mcep参数方差的均值和方差。对转换后的mcep方差的分布做修正，使其更接近目标语音mcep方差的分布。

2.方法框架图
在这里插入图片描述

3.特征参数提取，利用world声码器

在这里插入图片描述

实验及分析

1.数据准备
在这里插入图片描述
2.参数设置

设置合适的F0搜索范围，能够有效减少后续转换时F0提取错误，如半F0、双F0的情况。

设置合适的归一化功率门限值，可有效去除静音帧，从而提升时间对齐准确率。（npow）
在这里插入图片描述

实验结果

在这里插入图片描述

在这里插入图片描述

http://www.ppmy.cn/news/461121.html

相关文章

Android AudioEffect音效移植

Android AudioEffect音效移植

原文链接：https://blog.csdn.net/wkw1125/article/details/65632960 AudioEffect构造流程跟踪为了编写新的音效实现，需要了解Android底层在AudioEffect的底层实现： 在Java层new Equalizer();后，通过JNI进入底层C/C的实现过程。在…

阅读更多...

使用PP-TTS实现语音合成

使用PP-TTS实现语音合成

调用 PP-TTS 需要安装的依赖文件 requirements.txt 如下（下面的版本号只是写这篇文章时的版本号，不是最新的版本号）： paddlepaddle2.4.2 paddlespeech1.0.1 paddleaudio1.0.1在执行 TTS 任务过程中，会将使用到的声学…

阅读更多...

声音匹配

声音匹配

每个人说话的内容虽然不一样，但是频率基本不会变，所以声音匹配原理是根据频率的分布情况。 import librosa import os from collections import Counter import numpy as np from functools import reducedirpath "/Users/birenjianmo/Desktop/le…

阅读更多...

TTS语音模块

TTS语音模块

我们之前分享过TTS （从文本到语音(Text To Speech)）功能，目前有两个模块可以实现此功能： 方案一：使用科大讯飞的XFS5152CE语音合成模块，这个模块优点是接近真人发声，缺点价格偏贵，大…

阅读更多...

unity2D：音效Audio音效管理SoundManager

unity2D：音效Audio音效管理SoundManager

注：本篇为本人的学习笔记，所以有的地方估计只有本人能看懂，详情见b站up：Michael-studio 版本信息：unity2020.3 本节内容： Audio Listener：相当于人的耳朵，默认情况下在main camera…

阅读更多...

【ViPER音效插件】，完美提升电脑音乐播放效果

【ViPER音效插件】，完美提升电脑音乐播放效果

安卓手机也有音效插件，Viper4Android，可能有朋友知道： 根据需求下载FX或XHiFi版（推荐FX） http://vipercn.com/soft-download/viper4android_down/ 这个玩意儿还有电脑版，叫Viper4Windows，大伙…

阅读更多...

DY-SV17F 语音模块

DY-SV17F 语音模块

大家好，我是程序员小哈。前几天有个球友在用一个语音模块，遇到了点困难，为了方便调试，小哈哥也买了两个一起玩了一下。今天小哈哥就来简单分享一下这个模块。模块概述 DY-SV17F 语音模块，包括IO 分段触发&#x…

阅读更多...

如何在3分钟内实现音频变声和趣味音效？

如何在3分钟内实现音频变声和趣味音效？

在泛娱乐社交和互动游戏场景中，用户已不再满足于高清的音质体验和实时的互动效果，他们还想要增加趣味性和沉浸感，让声音变得好玩有趣。拍乐云Pano上线了音频变声接口，开发者可以通过 Pano SDK 设置不同的变声效果，如大…

阅读更多...

最新文章