声纹识别小总结

news/2024/11/24 0:44:24/

文章目录

  • 1.声纹识别基础知识
    • A.识别任务分类:1、固定文本:注册与验证内容相同;2、半固定文本:注册与验证内容一样但顺序不同,且文本属于固定集合;3、自由文本
    • B.常见预处理特征:MFCC/FBank。
    • C.常用的评价方法
  • 2.相关论文总结
    • 1.Probabilistic Linear Discriminant Analysis
    • 2.Front-End Factor Analysis for Speaker Verification
    • 3.A Time Delay Neural Network Architecture for Efficient Modeling of Long Temporal Contexts
    • 4.ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification
    • 5.Deep Neural Network Embeddings for Text-Independent Speaker Verification
    • 6.X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION(与上面的论文基本一致)
    • 7.Time Delay Deep Neural Network-Based Universal Background Models For Speaker Recognition
    • 8.Deep Neural Networks for Small Footprint Text-Dependent Speaker Verification(d-vector)

1.声纹识别基础知识

A.识别任务分类:1、固定文本:注册与验证内容相同;2、半固定文本:注册与验证内容一样但顺序不同,且文本属于固定集合;3、自由文本

B.常见预处理特征:MFCC/FBank。

C.常用的评价方法

1.等错误率(Equal Error Rate, EER):
错误拒绝率EFR和错误接受率 EFA :EER 为EFR = EFA 时的错误率:EER = EFR = EFA
2.DET(Detection Error Trade-off) 曲线
DET 曲线也是说话人确认中,如下图所示,DET曲线建立对数刻度下 EFA与EFR 的关系。曲线离原点越近,EFA 与 EFR 越小,系统性能越好。曲线与第一象限 45◦ 线的交点即为 EER 点。曲线上的不同点对应不同的阈值。
在这里插入图片描述

3.最小检测代价(Minimum Detection Cost Function, minDCF):
DCF 是 NIST SRE 中定义的一种性能评定方法
在这里插入图片描述(1)
其中 CFR和 CFA 分别代表错误拒绝和错误接受的惩罚代价,Ptarget和1 − Ptarget分别为真实说话测试和冒认测试的先验概率。可以根据不同的应用环境来设定它们的值。希望错误接受的概率比较小,那么可以增大 CFA 。当 CFR、CFA 、Ptarget和 1 − Ptarget取定后,EFR 与 EFA 的某一组取值使得 DCF 最小,此时的 DCF 成为 minDCF 。
在日常使用 DCF 时,CFR = 10,CFA = 1,Ptarget= 0.01 为准。minDCF不仅考虑了两类错误的不同代价,还考虑了两种测试情况的先验概率,比EER 更合理。

2.相关论文总结

1.Probabilistic Linear Discriminant Analysis

概率LDA,是一种生成模型。
在这里插入图片描述
(2)
第2个加项是信号成分,只与个体i相关,表示个体之间的差异;后两个式子是噪声成分,代表个体内部差异。μ是全体训练数据的均值,F是身份/信号空间,hi是第i个人在F中的位置,G是误差空间,wij是第i人的第j图在G中的位置,最后一项就是噪声。
借助另一篇论文理解这个公式:
在这里插入图片描述
第一行为前两个加项,第二行μ+噪声成分,第一行代表的是不同的人,第二行代表的就是相同的人,他们之间有一些个体差异。
公式(2)有4个参数,但是我们的目标是寻找说话人之间的区别,所以G可以不算,在测试的时候就计算语音是否由身份空间F的hi组成,或者是由hi生成的似然程度,不用再管误差空间G内差异了。利用下面的公式(3)计算结果:
在这里插入图片描述
(3)

2.Front-End Factor Analysis for Speaker Verification

这篇论文是第一篇提出i-vecctor方法的论文。
基于JFA公式进行优化,JFA 的原理是对语音的高斯超向量进行因子分解,得到说话人因子和通道因子。下面为JFA的公式:
在这里插入图片描述
(4)
根据 JFA 的假设,通道因子应该只包含语音中的传输通道、录音设备等与说话人无关的信息。但是,研究发现通道因子中还存在有用的说话人信息,可能会因为分离的不正确而丢失重要的信息,因此提出了一个简化的JFA 模型,总体变化模型(Total Variability Model,TVM),由于其提取的特征为 i-vector,故总体变化模型也称为i-vector模型。
文章一共提出了两个方法,这两个方法是串起来使用的:第一个是基于支持向量机的系统,它使用余弦核来估计输入数据之间的相似性。第二个系统直接使用目标说话人因子和测试总因子之间计算的余弦距离值作为决策分数。在总可变性空间中测试了三种通道补偿技术,分别是类内协方差归一化(WCCN)、线性判别分析(LDA)和滋扰属性投影(NAP)。论文发现,当 线性判别分析(LDA)之后使用 类内协方差归一化(WCCN)时,可以获得最好的结果。
在i-vector模型中,因子分析用于提取特征,在总因子空间进行通道补偿,与经典JFA 建模中的情况一样。i-vector方法的优点是运算量较小(因为在低维空间上处理的)。

3.A Time Delay Neural Network Architecture for Efficient Modeling of Long Temporal Contexts

这篇论文提出了一个时滞网络TDNN,并进行了采样来减少花销:不直接拼接连续窗口,而是将当前帧-7处的和+2处的拼接({-7,+2}),如果是中括号就是连续拼接。
sub-sample的方法能减少5倍的计算量,也缩减了模型。作者认为left-context大于right-congtext比较好,这减少了在线解码中神经网络的延迟。最优结果为[-16,9]。
在这里插入图片描述
在这里插入图片描述

另外,文中写到p-norm效果好,但是后期发现relu效果更好,但当时论文还没写好。

4.ECAPA-TDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification

这篇论文是前几年提出的,但目前还是sota。模型的输入是MFCC(25ms,80维,10ms每帧的移动),在使用之前用specaugment进行扩充,每段语句会生成额外的6段,遵循kaldi原则。同时也会有一些随机屏蔽:1.时域屏蔽0-5帧 2.频域屏蔽0-10通道,其中有瓶颈层(bottleneck layer)和res2net。
在这里插入图片描述
在这里插入图片描述

最后从网络中输出的结果,利用余弦距离计算试验分数(没有用PLDA),利用s-norm对分数归一化。

5.Deep Neural Network Embeddings for Text-Independent Speaker Verification

该论文在i-vector之后提出,embedding效果比较好,论文使用多分类交叉熵损失:
在这里插入图片描述
(5)
由于GPU限制,作者选择范围从 2 到 10 秒(200 到 1000 帧)以及 32 到 64 的mini batchsize的样本。示例语音块从录音中密集采样,每个说话者大约 3,400 个示例。Embedding a是直接在统计数据之上的仿射层的输出。Embedding b是从ReLU之后的下一个仿射层提取的,因此它是非线性函数。 因为它们是同一个DNN的部分,因此计算b,就可以获a。
后续也是PLDA在进行处理,最开始frame-layer里边是TDNN,一共5层。
在这里插入图片描述

6.X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION(与上面的论文基本一致)

这篇论文主要增加了数据增强(附加babble人声、music、noise噪声、reverb混响)。将可变长度的话语映射到x-vector,同时作者发现数据增强对于plda有效,但是对于i-vector没什么效果。
语音长度平均三秒,模型共有420万个参数。输出结果用s-norm归一化。
模型与上面的embedding一致,具体包含多层帧级别的TDNN层,一个统计池化层和两层句子级别的全连接层,以及一层softmax;损失函数为CE交叉熵。统计池化层将输出取均值和标准差,再将二者拼接起来,得到句子级别的特征表达。
他效果比较好主要是因为数据增强的比较合适。X-VECTORS在SRE和SITW上的表现均优于传统框架i-vector。
TDNN+stats pooling,能够将帧级别的输入特征转化为句子级别的特征表达embeddding。同样他也是利用PLDA在计算相似度。

7.Time Delay Deep Neural Network-Based Universal Background Models For Speaker Recognition

本文提出的主要方法是UBM,以传统方法GMM与UBM结合作为baseline。
GMM-UBM 复合方法示意图

GMM-UBM 复合方法示意图

  1. 模型:输入(60-d)→UBM(2048,4096,5297-c)→i-vector extractor(600-d)→PLDA
  2. 输入:共60维,20维MFCC+Delta+acceleration,25ms帧长,平均归一化,3s窗口,基于能量的VAD;
  3. UBM:full-covariance GMM with 2048, 4096, and 5297 components;
  4. i-vector:600-d,均值减法,长度归一化;
  5. PLDA:i-vector的均值m,类间和类内协方差矩阵Γ 和 Λ
    这篇论文又在TDNN的基础之上,进行了下一步修改。提出了两种模型TDNN-GMM(花销大)和sup-GMM(速度快花销少)。
    sup-GMM使用DNN的后验以及说话人特征(即MFCC)来生成,与无监督的GMM的不同仅在UBM的训练过程,i-vector提取过程中都如下所示
    在这里插入图片描述

sup-GMM复合方法示意图
在这里插入图片描述

TDNN-UBM复合方法示意图
模型结构:首先输入MFCC到一个DNN(TDNN),然后使用DNN的输出(后验)以及说话人特征创建一个UBM,也就是之前提到的sup-GMM,然后使用UBM的输出以及声学特征生成一个TDNN,然后使用该TDNN的后验以及说话人特征提取i-vector。
在这里插入图片描述

在i-vector提取过程中,它与之前基于GMM的系统的唯一区别是该模型被用于计算后验。结合说话人识别特征,TDNN后端为i-vector提取创建了足够的统计信息。

8.Deep Neural Networks for Small Footprint Text-Dependent Speaker Verification(d-vector)

第一篇利用DNN提取声纹特征的方法,以训练好的DNN模型最后的隐藏层的累积输出作为说话者的特征。

得到d-vector之后,进行l2-norm,利用该值点积就可以获得余弦相似度,并通过阈值来验证是谁。


http://www.ppmy.cn/news/773122.html

相关文章

上行骨传导技术的详解

主动降噪和通话降噪是不一样的降噪技术,主动降噪是起到把环境噪声最大程度地抵消,让使用耳机的人享受安静的环境;而通话降噪则是另一个方向的应用,它可以让使用通话降噪耳机的人在嘈杂的马路边打电话,或者在飞驰的摩托…

声纹识别综述

声纹识别由三部分组成:特征,模型,得分。 特征方面: MFCC/PLP/FBank等短时频谱特征;D-vector (谷歌2014年提的)Deep feature / Bottleneck feature /Tandem feature (三者不是并行关系,可以搜关键…

win10系统中Pensieve(Sigcomm17)算法部署与运行

win10系统中Pensieve算法部署与运行 一、环境配置1、Anaconda环境配置2、Pycharm安装3、Pensieve安装包配置4、Pensieve数据集生成5、Pensieve代码运行6、Pensieve代码修改 一、环境配置 1、Anaconda环境配置 下载并且安装 Anaconda 官网下载地址:https://www.ana…

骨传导耳机是怎么传声的?骨传导耳机会伤害耳朵吗?

作为一个耳机发烧友,平时最喜欢的就是捣鼓耳机。这几年入手了几十款耳机,头戴式、入耳式、半入耳、有线无线都会接触一些来玩,其中还有骨传导耳机这个相对小众的款类。 说到骨传导耳机,我应该算是最早一批的用户了,很…

第一课.声纹识别

示波器与语谱图[From wareform(oscillograph) to Spectrogram] oscillograph 示波器 示波器是一种用途十分广泛的电子测量仪器。它能把肉眼看不见的电信号变换成看得见的图像,便于人们研究各种电现象的变化过程。示波器利用狭窄的、由高速电子组成的电子束&#xf…

声纹识别知识整理

关于声纹识别的算法及知识层出不穷,一文带你了解声纹识别: 一、算法总览 1. 最早的GMM-UBM i-vector 利用GMM高斯混合模型提取特征i-vector;克服训练数据不多的情况,引入UBM;将语音分为说话人空间和环境空间&#x…

声纹识别的发展综述

声纹识别的发展综述 综述声纹概念与用于识别的优势声纹识别工作方式声纹识别三大部分:特征,模型,得分语音特征介绍声纹模型的演进基于深度学习的声纹技术 其他语音技术介绍 综述 声纹概念与用于识别的优势 声纹的概念:声音就是一…

声纹识别概述(1)初识

声纹识别 1. 声纹概念2. 声纹识别的分类3. 声纹识别的原理4. 声纹识别的关键特征提取模式识别 5. 声纹识别的技术指标6. 影响声纹识别水平的因素 初识声纹 1. 声纹概念 声波频谱 声纹(Voice print)是用电声学仪器现实的携带言语信息的声波频谱, 是由波长频率以及强度…