音频筑基:巴克谱和梅尔谱辨析
- 是什么
- 深入了解
- 相关参考
在音频信号处理中,巴克谱和梅尔谱是我们经常遇到的概念,也是语音处理中常用到的频域特征,这里谈谈自己对它们的理解。
是什么
巴克谱又称Bark Spectrum,梅尔谱又称Mel Spectrum,其中异同梳理如下:
- 相同点:
- Bark谱和Mel谱都是将线性频谱映射到非线性谱上的表征,根据不同频带的感知能力来划分,但它们的核心思想不同。
- 这两种谱都是语音信号处理中常用的特征提取方法,它们可以用于基频、降噪、编解码、特殊声音检测等领域。
- 不同点:
- 机理不同:
- BFCC(Bark-Frequency Cepstral Coefficents),人耳对
响度
感知灵敏度确定的频带划分方法, amplitude/loudness - MFCC(MelScale-Frequency Cepstral Coefficents),人耳对
音高
感知灵敏度确定的频带划分方法, pitch
- BFCC(Bark-Frequency Cepstral Coefficents),人耳对
- 映射函数不同:
- Bark谱将线性频谱映射到Bark域上,以符合人耳听觉机理。在Bark域上分布是非线性的。Bark谱通常基于MDCT弄的,常用于编解码领域。
- Mel谱将线性频谱映射到Mel频率域(对数log)上,以模拟人类听觉系统机理。在Mel频域上,分布是线性的。Mel谱通常基于STFT弄的,使用更广泛。
- 两者的区别在于映射函数不同,Bark谱的映射函数是非线性的,而Mel谱的映射函数是线性的。
- 机理不同:
深入了解
巴克谱/bark刻度具体如何解释?
- bark刻度指的是频点分带策略按人耳听觉感知特性,对0-15500Hz频点从听感上进行等间距划分24个带,低于500Hz的bark刻度近似线性,高于500Hz的bark刻度近似对数尺度。
- bark谱划分最高到15.5kHz,若到20kHz需增加为25个带(15.5-20k)
- bark谱的关键在于临界带的宽度,而非具体位置
相关参考
- 语音特征小结 - 知乎 (zhihu.com)],link
- 音频处理中的尺度–Bark尺度与Mel尺度_bark(巴克)频率尺度-CSDN博客,link
- Bark谱维基百科,link