声学特征如何提取?
一、声学特征预处理
首先进行预处理,就是我们最后要提取一帧一帧的这种声学特征,这个语音信号经过预处理然后提取特征,那么特征也有用原始的傅里叶变换,STFT短时傅里叶变换得到这个语谱图特征,也有用FBANK就没有滤波器的输出,还有用MFCC。预处理包括预加重、分帧、加窗。
预处理---预加重
受到唇端辐射抑制,高频能量明显降低,不利于后续的分析跟识别,所以要进行补偿。就是采用预加重对高频部分的振幅做一些规整,让它减少被动化的影响。
预加重公式就是用前后采样点相减,其中权重系数,
预处理---分帧
我们对这个声音要进行分析,就是需要假设声音短时平稳性,才能进行短时分析,就是假定极限它是固定,假设在一个时间段里面它是静态的,才能对曲线的变化特征进行计算,那么这个语音满足短时平稳性,因为我们的发音器官不可能高速在变化,我们在说话的时候,会经过这个发音器官有所调整,但是在短时间内:在这种10~30