音频客观测评方法PESQ

ops/2024/12/16 6:58:17/

一、简介

语音质量感知评估(Perceptual Evaluation of Speech Quality)是一系列的标准,包括一种用于自动评估电话系统用户所体验到的语音质量的测试方法。该标准于2001年被确定为ITU-T P.862建议书[1]。PESQ被电话制造商、网络设备供应商和电信运营商用于客观的语音质量测试。PESQ的继任者POLQA(ITU-T P.863建议书[2])的第一版于2011年生效。(引用wiki)

协议中提供源码:https://www.itu.int/rec/T-REC-P.862-200511-W!Amd2/en

Python开源链接:https://github.com/ludlows/PESQ

二、原理

PESQ中,原始信号和被测信号通过感知模型映射到internal representation。认知模型利用这种representation差异来预测被测信号的语音质量。

PESQ认知模型用于预测感知语音质量的internal representation,是基于使用频率(以Bark为单位的音高)和强度(以Sone为单位的响度)的心理物理等效物的信号表示来计算的。 

三、实现

总的想法是: 

1)对原始信号和通过被测系统的信号首先电平调整到标准听觉电平,再利用IRS(Intermediate Reference System)滤波器模拟标准电话听筒进行滤波;
2)对通过电平调整和滤波之后的两个信号在时间上对准,并进行听觉变换,这个变换包括对系统中线性滤波和增益变化的补偿和均衡;
3)将两个听觉变换后的信号之间的谱失真测度作为扰动(即差值),分析扰动曲面提取出的两个退化参数,在频率和时间上累积起来,映射到MOS的预测值。 

1、电平调整

首先要调整原始音频和被测音频的整体音量。这步是将整体原始音频信号X(t)和被测试音频信号Y(t)都缩放到相同的恒定功率水平。

PESQ假设主观听音水平是一个常数,约为耳参考点处的79分贝SPL(P.830,[23]第8.1.2节)。音量对齐是基于原始信号和被测信号的带通滤波版本(300-3000 Hz)的功率来进行的。

除了时域中的电平对齐外,在时频分析之后,还需要在频域中对齐power。这是通过生成一个频率为1000 Hz、幅度为40分贝SPL的正弦波来实现的。这个正弦波使用32毫秒帧长的加窗快速傅里叶变换(FFT)转换到频域。将频率轴转换为modified Bark尺度后,通过乘以功率缩放因子Sp,将得到的基音功率密度的峰值幅度归一化为 的功率值。

代码实现如下:

pesq_measure->fix_power_level

void fix_power_level (SIGNAL_INFO *info, char *name, long maxNsamples) 
{long   n = info-> Nsamples;long   i;float *align_filtered = (float *) safe_malloc ((n + DATAPADDING_MSECS  * (Fs / 1000)) * sizeof (float));    float  global_scale;float  power_above_300Hz;for (i = 0; i < n + DATAPADDING_MSECS  * (Fs / 1000); i++) {align_filtered [i] = info-> data [i];}apply_filter (align_filtered, info-> Nsamples, 26, align_filter_dB);power_above_300Hz = (float) pow_of (align_filtered, SEARCHBUFFER * Downsample, n - SEARCHBUFFER * Downsample + DATAPADDING_MSECS  * (Fs / 1000),maxNsamples - 2 * SEARCHBUFFER * Downsample + DATAPADDING_MSECS  * (Fs / 1000));global_scale = (float) sqrt (TARGET_AVG_POWER / power_above_300Hz); for (i = 0; i < n; i++) {info-> data [i] *= global_scale;    }safe_free (align_filtered);
}

2、IRS滤波

这是基于假设听力测试是通过一个手机设备进行的。为了模拟受试者实际听到的信号,需要计算原始语音信号和被测试语音信号的IRS滤波。通过在整个文件上执行快速傅里叶变换(FFT),在频域中使用与IRS接收特性相似的分段线性响应进行滤波,然后在整个语音文件长度上执行逆FFT来实现。

这样得到了缩放后的输入信号Xs(t)和输出信号Ys(t)的滤波版本Xirss(t)和Yirss(t)。PESQ中,无论实际主观实验使用的是IRS还是modified IRS滤波,都使用单一的IRS类接收滤波器。因为大多数情况下,确切的滤波是未知的,而且即使知道确切的滤波,手持设备与耳朵之间的耦合也是未知的。因此,ITU-T要求客观方法对手持设备的滤波相对不敏感。此外,ITU-T基准中不允许对滤波进行调整。

代码实现如下:

pesq_measure

3、时间对齐与均衡

若原始语音文件和被测试语音文件以较大的静音间隔开始或结束,可能会影响对这些文件中某些平均失真值的计算。因此,需要估算这些文件开头和结尾的静音部分。

从原始语音文件的开头和结尾开始,必须连续五个绝对样本值的总和超过500,该位置才被视为活跃间隔的开始或结束。这个开始和结束之间的间隔被定义为活跃语音时间间隔。为了节省计算周期和存储空间,某些计算可以限制在活跃间隔内进行。

代码实现如下:

pesq_measure->pesq_psychoacoustic_model

#define CRITERIUM_FOR_SILENCE_OF_5_SAMPLES        500.

4、听觉变换

实际生活中,人耳会执行时频变换。在PESQ中通过在一个32毫秒帧长的Hann window进行短时快速傅里叶变换来模拟。连续帧之间的重叠率为50%。原始信号和被测试信号的功率谱(复数快速傅里叶变换(FFT)分量的实部和虚部的平方和)被分别存储在独立的实值数组中。在PESQ中,单个帧内的相位信息被丢弃,所有计算仅基于功率表示

另外Bark scale反映了人类听觉系统在低频时具有比高频更精细的频率分辨率这一特性。这一特性通过快速傅里叶变换(FFT)频带的分组实现,即将相应FFT频带的功率进行归一化求和。将赫兹频率尺度映射到Bark approximates的扭曲函数。所得信号被称为基音功率密度:PPXwirss(f)n和PPYwirss(f)n。 

5、扰动处理

被测信号中帧的起始点会根据variable delay estimator观测到的延迟进行偏移。原始语音信号的时间轴则保持不变。如果延迟增加,处理过程中会省略被测试信号的部分内容;而如果延迟减少,则会重复被测试信号的部分内容。这种时间轴的修改在与主观感知的整体语音质量的相关性方面取得了最佳结果。

这块的详细介绍需要参考《Perceptual Evaluation of Speech Quality (PESQ), the new ITU standard for end-to-end speech quality assessment. Part II – Psychoacoustic model》

6、识别坏间隔

连续多帧中,若帧扰动超过某一阈值,那么这些帧被称为不良区间。

在少数情况下,由于预处理观测到的时间延迟不正确,客观测量会预测在最少的不良帧数内会出现较大的失真。对这些不良区间,我们通过定位预处理观测到的延迟进行预补偿后的绝对原始信号与绝对被测试信号之间的互相关最大值,来估计新的延迟值。

当互相关最大值低于某一阈值时,我们认为该区间是噪声与噪声的匹配,此时该区间不再被视为不良区间,并停止对该区间的处理。否则,将重新计算不良区间内各帧的帧扰动,如果新的帧扰动值较小,则用它替换原始的帧扰动值。最终得到的帧扰动值Dn和DAn用于计算主观感知的整体语音质量。

四、参考

语音质量评估 - 冬色 - 博客园语音质量评估,就是通过人类或自动化的方法评价语音质量。在实践中,有很多主观和客观的方法评价语音质量。主观方法就是通过人类对语音进行打分,比如MOS、CMOS和ABX Test。客观方法即是通过算法评测语音质量,在实时语音通话领域,这一问题研究较多,出现了诸如如PESQ和P.563这样的有参考和无参考icon-default.png?t=O83Ahttps://www.cnblogs.com/mengnan/p/12046332.html

https://www.itu.int/rec/T-REC-P.862-200511-W!Amd2/enicon-default.png?t=O83Ahttps://www.itu.int/rec/T-REC-P.862-200511-W!Amd2/en

http://www.mp3-tech.org/programmer/docs/2001-P03a.pdficon-default.png?t=O83Ahttp://www.mp3-tech.org/programmer/docs/2001-P03a.pdf


http://www.ppmy.cn/ops/142319.html

相关文章

使用elasticsearch-java客户端API生成DSL语句

在Elasticsearch7.15.0之后&#xff0c;官方提供了elasticsearch-java包作为java客户端工具包&#xff0c;用于取代elasticsearch-rest-high-level-client&#xff0c;其底层依然依赖Elasticsearch Low Level REST 客户端&#xff0c;即elasticsearch-rest-client。 elasticsea…

CentOS 上如何查看 SSH 服务使用的端口号?

我们知道&#xff0c;linux操作系统中的SSH默认情况下&#xff0c;端口是使用22&#xff0c;但是有些线上服务器并不是使用的默认端口&#xff0c;那么这个时候&#xff0c;我们应该如何快速知道SSH使用的哪个端口呢&#xff1f; 1、通过配置文件查看 cat /etc/ssh/sshd_confi…

行为树详解(4)——节点参数配置化

【分析】 行为树是否足够灵活强大依赖于足够丰富的各类条件节点和动作节点&#xff0c;在实现这些节点时&#xff0c;不可避免的&#xff0c;节点本身需要有一些参数供配置。 这些参数可以分为静态的固定值的参数以及动态读取设置的参数。 静态参数直接设置为Public即可&…

Python毕业设计选题:基于django+vue的疫情数据可视化分析系统

开发语言&#xff1a;Python框架&#xff1a;djangoPython版本&#xff1a;python3.7.7数据库&#xff1a;mysql 5.7数据库工具&#xff1a;Navicat11开发软件&#xff1a;PyCharm 系统展示 管理员登录 管理员功能界面 用户管理 员工管理 疫情信息管理 检测预约管理 检测结果…

23种设计模式之命令模式

目录 1. 简介2. 代码2.1 Order &#xff08;命令接口&#xff09;2.2 Stock &#xff08;接收者类&#xff09;2.3 Buy &#xff08;具体命令类&#xff09;2.4 Sell &#xff08;具体命令类&#xff09;2.5 Broker &#xff08;调用者类&#xff09;2.6 Test &#xff08;测试…

国科大智能设备安全-APK逆向分析实验

APK逆向分析实验 使用APK常用逆向分析工具&#xff0c;对提供的移动应用程序APK文件进行逆向分析&#xff0c;提交逆向后代码和分析报告。具体任务如下&#xff1a; 任务一&#xff1a;安装并熟悉Apktool、Jadx等APK常用逆向工具的使用方法&#xff0c;对提供的Facebook Updat…

VMware17版本 命令安装VMtools的方法

若是VMware17版本的虚拟机&#xff0c;虚拟机不再直接提供VMtools的安装包&#xff0c;那么可以通过以下方法来安装VMtools工具。 问题&#xff1a; 解决&#xff1a;使用命令来安装VMtools sudo apt-get install open-vm-tools sudo apt-get install open-vm-tools-desktop …

CSS中相对、固定、绝对及粘性定位的应用场景

在CSS中&#xff0c;不同的定位方式&#xff08;相对定位、固定定位、绝对定位和粘性定位&#xff09;各自有其特定的使用场景。以下是这些定位方式的详细说明和使用场景&#xff1a; 1. 相对定位&#xff08;Relative Positioning&#xff09; 使用场景&#xff1a; 微调元…