声学特征: GFCC
1. introduction
ASA
CASA
2. Auditory Features
input(signal) -> STFT -> Gammatone filters -> downsampling(改变采样频率到10KHz) -> loudness-compressed (减少 magnitude) -> output(TF decomposition(T-F decomposition是cochleagram图的一部分,cochleagram在低频有更高的频率分辨率,不同于频谱图的线性频率分辨率。))
input(Gammatone feature(cochleagram图的一帧))-> DCT(做这个operation的原因是解决GF的维度大,并且GFs之间相似度太高(帧和帧之间重复部分多))-> output(GFCC)
可以看到GFCC的过程和倒谱分析基本相同,但是没有取log的过程。
低30位几乎保存了所有信息,所以GFCC取30位就好。
GFCC_delta (动态特征)(比较简单的动态特征就是特征之间的微分,可以反应特征的走向)也取30位,加上GFCC一共60位。
3. Evaluation
参考论文:Shao Yang and De Liang Wang. “Robust speaker identification using auditory features and computational auditory scene analysis”. In: Proc. of ICASSP. 2008.