(undone) 学习语音学中关于 i-vector 和 x-vector

server/2024/11/15 1:57:45/

来源:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8461375 (这是一篇跟 X-vector 有关的论文)
这里有更适合初学者的两个资料:
1.https://www.youtube.com/watch?v=R3rzN6JYm38 (MIT教授的youtube视频)
2.https://people.csail.mit.edu/sshum/talks/ivector_tutorial_interspeech_27Aug2011.pdf (MIT教授的slides)


首先是摘要
在这里插入图片描述
在本文中,我们使用数据增强来提高深度神经网络(DNN)嵌入矢量在说话人识别中的性能。DNN经过训练以区分不同的说话人,将可变长度的语音片段映射为我们称之为x-vectors的固定维度嵌入(有点类似于 NLP 中的嵌入矢量)。先前的研究发现,嵌入在利用大规模训练数据集方面比i-vectors表现更佳。然而,收集大量标记数据进行训练可能具有挑战性。我们使用数据增强,包括添加噪声和混响,作为一种廉价的方法来增加训练数据量并提高鲁棒性。我们在“野外说话人”数据集和NIST SRE 2016粤语数据集上将x-vectors与i-vector基准进行了比较。结果发现,虽然数据增强对PLDA分类器有益,但对i-vector提取器并没有帮助。然而,x-vector DNN由于其监督训练,能够有效利用数据增强。因此,x-vectors在评估数据集上取得了更优的性能。

看完摘要,初步判断这是比较 x-vector 和 i-vector 的文章,我们来直接跳到第二节 SPEAKER RECOGNITION SYSTEMS,也是类似于其它文章的 BACKROUND


在这里插入图片描述
本节描述了为本研究开发的说话人识别系统,包括两个i-vector基准和DNN x-vector系统。所有系统均使用Kaldi语音识别工具包构建。

在这里插入图片描述
基于文献[11]中描述的GMM-UBM方法的传统i-vector系统作为我们的声学特征基准系统。特征为20个MFCC,帧长度为25毫秒,在最长为3秒的滑动窗口内进行均值归一化。增添了Delta和加速度,形成60维特征向量。基于能量的语音活动检测(SAD)系统选择与语音帧对应的特征。UBM为2048个成分的全协方差GMM。该系统使用600维的i-vector提取器,并采用PLDA进行评分(见第2.4节)。
(感觉似乎并没有讲述 i-vector 是个啥)

TODO: here


http://www.ppmy.cn/server/119766.html

相关文章

无人机之4G模块的主要功能和优势

一、增强图传 在无人机飞行过程中,传统的图传方式可能会受到信号遮挡或干扰的影响,导致图像传输不稳定甚至中断。而4G模块通过结合4G网络技术,能够在原有图传技术的基础上提供增强的图传功能。当传统图传信号不佳时,无人机可以自动…

《MmAP : Multi-Modal Alignment Prompt for Cross-Domain Multi-Task Learning》中文校对版

系列论文研读目录 文章目录 系列论文研读目录摘要1 引言2 相关工作3 方法3.1对比图像预训练3.2 多模式对齐提示3.3 多任务提示学习框架 4 实验4.1基准设置4.2实验结果4.3消融研究 5、结论 摘要 多任务学习(Multi-Task Learning,MTL)是为了同…

离散型制造业MES系统主要功能介绍

一、离散型制造业的特点 离散型制造业是指生产过程中涉及多个独立工序或步骤,且这些工序之间相对独立、缺乏连续性的企业。其特点主要包括: 产品种类多,开发频繁: 离散型制造业通常需要进行多品种产品开发,产品种类繁…

举例说明偏差的计算方式和在计算协方差中的作用

偏差是什么 定义 偏差(Deviation) 是统计学中的一个基本概念,指的是一个观测值与其平均值(或期望值)之间的差异。简单来说,偏差描述了单个数据点在多大程度上偏离了数据的平均水平。 数学上,…

【Qt之·文件操作·类QTextStream、QDataStream】

系列文章目录 文章目录 前言一、概述1.1 QTextStream类1.2 QTextStream类的作用和用途 二、基本用法2.1 QTextStream成员函数2.2 QTextStream格式描述符、描述符方法2.3 QDataStream成员函数2.4 创建QTextStream对象并关联输入/输出设备(如文件、标准输入/输出流等&…

AIGC时代!AI的“iPhone时刻”与投资机遇

AIGC时代!AI的“iPhone时刻”与投资机遇 前言AI的“iPhone时刻”与投资机遇 前言 AIGC,也就是人工智能生成内容,它就像是一股汹涌的浪潮,席卷了整个科技世界。它的出现,让我们看到了人工智能的无限潜力,也…

车载测试项目实操学习:CAN通信测试、UDS诊断测试、自动化测试、功能安全测试、CAN一致性测试、HIL测试:9-20

FOTA模块中OTA的知识点:1.测试过程中发现哪几类问题? 可能就是一个单键的ecu,比如升了一个门的ecu,他的升了之后就关不上,还有就是升级组合ecu的时候,c屏上不显示进度条。 2.在做ota测试的过程中&#xff…

(六)WebAPI方法的调用

1.WebAPI中定义的GET、POST方法 [HttpGet(Name "GetWeatherForecast")]public IEnumerable<WeatherForecast> Get(){return Enumerable.Range(1, 5).Select(index > new WeatherForecast{Date DateTime.Now.AddDays(index),TemperatureC Random.Shared.N…