声纹识别和语音识别的区别
1.两者在原理上一样,都是通过采集语音信息进行分析和处理,提取相应的特征或建立模型,然后做出判断
2.两者识别的目的:语音识别通过识别说话的内容转化为文字,而声纹识别则是要识别说话人的身份,是一种生物识别技术
3.声纹识别是通过语音波形反应说话人的生理和行为特征的语音参数,进而连接到声纹库,因此,声纹识别不注重语音信号的语义,而是从语音信号中提取个人声纹特征,挖掘出包含在语音信号中的个性因素。
文本相关
语音识别有文本相关和文本无关两种。
文本相关要求用户按照给定的内容发音,每个人的声纹模型逐个被精确地确立,而识别也同样按照相同的内容发音。
关键问题
声纹识别分为两个关键的问题:特征提取和模式匹配
1。特征提取:特征提取是提取并选择对说话人的声纹具有可分性强,稳定性高等特性的声学或语音特征
声纹识别模型可以使用的特征包括:(1)声学特征(倒频谱) (2)词语特征(说话人相关的词n-gram,音素n-gram)(3)韵律特征(利用n-gram描述的基音和能量“姿势”);(4)语种、方言和口音信息;(5)通道信息(使用何种通道);等等。
总之,较好的特征,应该能够有效地区分不同的说话人,但又能在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿问题;具有较好的抗噪性能;……。当然,这些问题也可以通过模型方法去解决。
模式识别
对于模式识别,有如下几大类方法:
(1)模板匹配方法:利用动态时间弯折(DTW)以对准训练和测试特征序列,主要用于固定词组的应用(通常为文本相关任务);
(2)最近邻方法:训练时保留所有特征矢量,识别时对每个矢量都找到训练矢量中最近的k个,据此进行识别,通常模型存储和相似计算的量都很大
(3)神经网络方法:有很多种形式,如多层感知、径向基函数(RBF)等,可以显式训练以区分说话人和其背景说话人,其训练量很大,且模型的可推广性不好;
(4)隐式马尔可夫模型(HMM)方法:通常使用单状态的HMM,或高斯混合模型(GMM),是比较流行的方法,效果比较好;
(5)VQ聚类方法(如LBG):效果比较好,算法复杂度也不高,和HMM方法配合起来更可以收到更好的效果;
(6)多项式分类器方法:有较高的精度,但模型存储和计算量都比较大;
技术原理
声纹识别的主要任务包括:语音信号处理、声纹特征提取、声纹建模、声纹比对、判别决策等
声纹身份认证分为两个阶段:
1:声纹注册阶段,用户输入注册语音样本,系统提取特征建模
2.声纹认证阶段,用户再次录入语音开展身份认证,另外,系统可以根据电话用户语音身份认证的状况,适当地更新或者调整用户的声纹模型