声纹识别_

声纹识别和语音识别的区别

1.两者在原理上一样，都是通过采集语音信息进行分析和处理，提取相应的特征或建立模型，然后做出判断

2.两者识别的目的：语音识别通过识别说话的内容转化为文字，而声纹识别则是要识别说话人的身份，是一种生物识别技术

3.声纹识别是通过语音波形反应说话人的生理和行为特征的语音参数，进而连接到声纹库，因此，声纹识别不注重语音信号的语义，而是从语音信号中提取个人声纹特征，挖掘出包含在语音信号中的个性因素。

文本相关

语音识别有文本相关和文本无关两种。
文本相关要求用户按照给定的内容发音，每个人的声纹模型逐个被精确地确立，而识别也同样按照相同的内容发音。

关键问题

声纹识别分为两个关键的问题：特征提取和模式匹配
1。特征提取：特征提取是提取并选择对说话人的声纹具有可分性强，稳定性高等特性的声学或语音特征

声纹识别模型可以使用的特征包括：（1）声学特征(倒频谱) (2)词语特征（说话人相关的词n-gram,音素n-gram)(3)韵律特征(利用n-gram描述的基音和能量“姿势”)；(4)语种、方言和口音信息；(5)通道信息(使用何种通道)；等等。

总之，较好的特征，应该能够有效地区分不同的说话人，但又能在同一说话人语音发生变化时保持相对的稳定；不易被他人模仿或能够较好地解决被他人模仿问题；具有较好的抗噪性能；……。当然，这些问题也可以通过模型方法去解决。

模式识别

对于模式识别，有如下几大类方法：
(1)模板匹配方法：利用动态时间弯折(DTW)以对准训练和测试特征序列，主要用于固定词组的应用(通常为文本相关任务)；
(2)最近邻方法：训练时保留所有特征矢量，识别时对每个矢量都找到训练矢量中最近的k个，据此进行识别，通常模型存储和相似计算的量都很大
(3)神经网络方法：有很多种形式，如多层感知、径向基函数(RBF)等，可以显式训练以区分说话人和其背景说话人，其训练量很大，且模型的可推广性不好；
(4)隐式马尔可夫模型(HMM)方法：通常使用单状态的HMM，或高斯混合模型(GMM)，是比较流行的方法，效果比较好；
(5)VQ聚类方法(如LBG)：效果比较好，算法复杂度也不高，和HMM方法配合起来更可以收到更好的效果；
(6)多项式分类器方法：有较高的精度，但模型存储和计算量都比较大；