音频客观测评方法PESQ

一、简介

语音质量感知评估（Perceptual Evaluation of Speech Quality）是一系列的标准，包括一种用于自动评估电话系统用户所体验到的语音质量的测试方法。该标准于2001年被确定为ITU-T P.862建议书[1]。PESQ被电话制造商、网络设备供应商和电信运营商用于客观的语音质量测试。PESQ的继任者POLQA（ITU-T P.863建议书[2]）的第一版于2011年生效。（引用wiki）

协议中提供源码：https://www.itu.int/rec/T-REC-P.862-200511-W!Amd2/en

Python开源链接：https://github.com/ludlows/PESQ

二、原理

PESQ中，原始信号和被测信号通过感知模型映射到internal representation。认知模型利用这种representation差异来预测被测信号的语音质量。

PESQ认知模型用于预测感知语音质量的internal representation，是基于使用频率（以Bark为单位的音高）和强度（以Sone为单位的响度）的心理物理等效物的信号表示来计算的。

三、实现

总的想法是：

1）对原始信号和通过被测系统的信号首先电平调整到标准听觉电平，再利用IRS（Intermediate Reference System）滤波器模拟标准电话听筒进行滤波；
2）对通过电平调整和滤波之后的两个信号在时间上对准，并进行听觉变换，这个变换包括对系统中线性滤波和增益变化的补偿和均衡；
3）将两个听觉变换后的信号之间的谱失真测度作为扰动（即差值），分析扰动曲面提取出的两个退化参数，在频率和时间上累积起来，映射到MOS的预测值。

1、电平调整

首先要调整原始音频和被测音频的整体音量。这步是将整体原始音频信号X(t)和被测试音频信号Y(t)都缩放到相同的恒定功率水平。

PESQ假设主观听音水平是一个常数，约为耳参考点处的79分贝SPL（P.830，[23]第8.1.2节）。音量对齐是基于原始信号和被测信号的带通滤波版本（300-3000 Hz）的功率来进行的。

除了时域中的电平对齐外，在时频分析之后，还需要在频域中对齐power。这是通过生成一个频率为1000 Hz、幅度为40分贝SPL的正弦波来实现的。这个正弦波使用32毫秒帧长的加窗快速傅里叶变换（FFT）转换到频域。将频率轴转换为modified Bark尺度后，通过乘以功率缩放因子Sp，将得到的基音功率密度的峰值幅度归一化为的功率值。

代码实现如下：

pesq_measure->fix_power_level

void fix_power_level (SIGNAL_INFO *info, char *name, long maxNsamples) 
{long   n = info-> Nsamples;long   i;float *align_filtered = (float *) safe_malloc ((n + DATAPADDING_MSECS  * (Fs / 1000)) * sizeof (float));    float  global_scale;float  power_above_300Hz;for (i = 0; i < n + DATAPADDING_MSECS  * (Fs / 1000); i++) {align_filtered [i] = info-> data [i];}apply_filter (align_filtered, info-> Nsamples, 26, align_filter_dB);power_above_300Hz = (float) pow_of (align_filtered, SEARCHBUFFER * Downsample, n - SEARCHBUFFER * Downsample + DATAPADDING_MSECS  * (Fs / 1000),maxNsamples - 2 * SEARCHBUFFER * Downsample + DATAPADDING_MSECS  * (Fs / 1000));global_scale = (float) sqrt (TARGET_AVG_POWER / power_above_300Hz); for (i = 0; i < n; i++) {info-> data [i] *= global_scale;    }safe_free (align_filtered);
}

2、IRS滤波

这是基于假设听力测试是通过一个手机设备进行的。为了模拟受试者实际听到的信号，需要计算原始语音信号和被测试语音信号的IRS滤波。通过在整个文件上执行快速傅里叶变换（FFT），在频域中使用与IRS接收特性相似的分段线性响应进行滤波，然后在整个语音文件长度上执行逆FFT来实现。

这样得到了缩放后的输入信号Xs(t)和输出信号Ys(t)的滤波版本Xirss(t)和Yirss(t)。PESQ中，无论实际主观实验使用的是IRS还是modified IRS滤波，都使用单一的IRS类接收滤波器。因为大多数情况下，确切的滤波是未知的，而且即使知道确切的滤波，手持设备与耳朵之间的耦合也是未知的。因此，ITU-T要求客观方法对手持设备的滤波相对不敏感。此外，ITU-T基准中不允许对滤波进行调整。

代码实现如下：

pesq_measure

3、时间对齐与均衡

若原始语音文件和被测试语音文件以较大的静音间隔开始或结束，可能会影响对这些文件中某些平均失真值的计算。因此，需要估算这些文件开头和结尾的静音部分。

从原始语音文件的开头和结尾开始，必须连续五个绝对样本值的总和超过500，该位置才被视为活跃间隔的开始或结束。这个开始和结束之间的间隔被定义为活跃语音时间间隔。为了节省计算周期和存储空间，某些计算可以限制在活跃间隔内进行。

代码实现如下：

pesq_measure->pesq_psychoacoustic_model

#define CRITERIUM_FOR_SILENCE_OF_5_SAMPLES        500.

4、听觉变换

实际生活中，人耳会执行时频变换。在PESQ中通过在一个32毫秒帧长的Hann window进行短时快速傅里叶变换来模拟。连续帧之间的重叠率为50%。原始信号和被测试信号的功率谱（复数快速傅里叶变换（FFT）分量的实部和虚部的平方和）被分别存储在独立的实值数组中。在PESQ中，单个帧内的相位信息被丢弃，所有计算仅基于功率表示和

另外Bark scale反映了人类听觉系统在低频时具有比高频更精细的频率分辨率这一特性。这一特性通过快速傅里叶变换（FFT）频带的分组实现，即将相应FFT频带的功率进行归一化求和。将赫兹频率尺度映射到Bark approximates的扭曲函数。所得信号被称为基音功率密度：PPXwirss(f)n和PPYwirss(f)n。

5、扰动处理

被测信号中帧的起始点会根据variable delay estimator观测到的延迟进行偏移。原始语音信号的时间轴则保持不变。如果延迟增加，处理过程中会省略被测试信号的部分内容；而如果延迟减少，则会重复被测试信号的部分内容。这种时间轴的修改在与主观感知的整体语音质量的相关性方面取得了最佳结果。

这块的详细介绍需要参考《Perceptual Evaluation of Speech Quality (PESQ), the new ITU standard for end-to-end speech quality assessment. Part II – Psychoacoustic model》

6、识别坏间隔

连续多帧中，若帧扰动超过某一阈值，那么这些帧被称为不良区间。

在少数情况下，由于预处理观测到的时间延迟不正确，客观测量会预测在最少的不良帧数内会出现较大的失真。对这些不良区间，我们通过定位预处理观测到的延迟进行预补偿后的绝对原始信号与绝对被测试信号之间的互相关最大值，来估计新的延迟值。

当互相关最大值低于某一阈值时，我们认为该区间是噪声与噪声的匹配，此时该区间不再被视为不良区间，并停止对该区间的处理。否则，将重新计算不良区间内各帧的帧扰动，如果新的帧扰动值较小，则用它替换原始的帧扰动值。最终得到的帧扰动值Dn和DAn用于计算主观感知的整体语音质量。

四、参考

语音质量评估 - 冬色 - 博客园语音质量评估，就是通过人类或自动化的方法评价语音质量。在实践中，有很多主观和客观的方法评价语音质量。主观方法就是通过人类对语音进行打分，比如MOS、CMOS和ABX Test。客观方法即是通过算法评测语音质量，在实时语音通话领域，这一问题研究较多，出现了诸如如PESQ和P.563这样的有参考和无参考https://www.cnblogs.com/mengnan/p/12046332.html