wav2vec--

news/2024/10/27 21:23:32/

Wav2vec: Unsupervised Pre-training for Speech Recognition

该模型非完整的ASR,而是一个将wav通过标记的、未标记的数据,通过无监督的方式进行训练,得到可以送入ASR中的向量;以提升ASR的准确率;


Wav2vec首先训练一个模型,以区分真实数据和干扰项样本,这可以帮助它学习训练的音频数据的数学表示形式。

有了这些表示形式,wav2vec可以通过剪辑和比较,从干扰物种分辨出准确的语音声音。

Wav2vec每秒执行数百次这样的操作,从而成为自身的转录器(transcriber),并且自动生成不正确版本的语音示例以测试系统并评估性能,从而无需手动注释训练数据。


当前用于语音识别的最新模型需要大量标记好的音频数据才能获得良好的性能。最近,在标注数据缺少的情况下,神经网络的预训练已经成为一种有效的技术。关键思想是先在有大量标记或未标记数据中进行general的训练,再在数据量受限的目标数据上fine-tune来提高下游任务的性能。
wav2vec:通过多层的卷积神经网络来提取音频的无监督语音特征。
模型训练时的损失函数选取的是对比损失函数(contrastive loss),在训练时将正例间的距离拉近,负例间的距离拉远。

wav2vec是一个卷积神经网络,它将原始音频作为输入并计算可以输入到语音识别系统的一般表示。
目标是对比损失,需要将真实的未来音频样本与底片区分开来。

作者使用两个network,第一个网络为encoder network,它的作用是把X转换为Z;
另外一个网络,context network会将多个z[i]转化为context representation C。
这里Z和C都会用作之后loss的计算。
模型的loss中自然要包含预测未来某个z的损失。
然而仅仅有正例是不够的,因此作者利用了负采样技术,作者从一个概率分布中采样出负样本,最终模型的loss为区分正例和反例的contrastive loss。
在这里插入图片描述
将正负样本分成两项来分析:
常规的Loss是Pred 和 Ground Truth;
这个是采集的负样本,与正样本的PK?

在这里插入图片描述

关于负样本怎么来的,是每次采样吗?因为是无监督,自然希望每次的wav2vec都是正样本;
根据另一个博客,继续认识该loss:
链接:https://zhuanlan.zhihu.com/p/340548756?utm_source=wechat_session&utm_medium=social&utm_oi=602514765923356672
在这里插入图片描述

还有:
After training, we input the representations ci produced by the context network to the acoustic model
instead of log-mel filterbank features.
log-mel filterbank features
语音识别:
.wav—分帧,降噪,端点检测(VAD)等 预处理(暂时不知先后)
对波形做变换(提取MFCC特征,应该涉及.wav的频谱图–>声谱图,具体可使用Python librosa, soundfile等库);
现在wav–> vector,然后–>声学模型的状态–>音素;—>语言模型,转换最终输出;


http://www.ppmy.cn/news/116642.html

相关文章

Wave2000 plus简介

http://www.cyberlogic.org/cn/model_sample_trasducer_design1.html 引言本教程介绍如何使用Wave2000 Plus仿真二维压电超声波传感器(换能器)的例子。本教程中使用的一个典型的模型如下图所示。为了你的方便,本教程中讨论的所有模型可以下…

A2B音频总线-车载多媒体功放音频测试

1、介绍 随着汽车影音娱乐信息技术的发展,车载音频系统的需求趋势越来越明显。因此,针 对汽车音频娱乐系统的新兴技术,对应的测试需求也在不断提升。本文将针对车载多媒体链路中的功放、A2B 总线系统和车机系统中的蓝牙音频系统,做…

【音频】WAV 格式详解

文章目录 WAV 文件格式解析概述块解析RIFF chunkfmt chunkdata chunk 示例分析代码解析 WAV 文件格式解析 概述 wav 文件支持多种不同的比特率、采样率、多声道音频。 WAV 文件格式是 Microsoft 的 RIFF 规范的一个子集,用于存储多媒体文件。RIFF(res…

实听惠威M200MKII

想买一个好一点的书架式有源音响不是一天两天了。比较来比较去,最后还是把M200MKII买回家中。听了两天,感觉好极了。 首先是好听!声音还原确实超好,不管是美国乡村摇滚,还是腾格尔、蔡琴和韩红,从前那种感…

音频功放PA

D类 D类功放接收模拟音频信号,用内部三角波发生器产生的三角波和它进行比较,其结果就是一个脉宽调制信号(PWM),然后将PWM信号放大并还原成模拟音频信号。因此,D类功放是用脉冲宽度对模拟音频幅度进行模拟的…

A100 Jeston TX1TX2使用教程-接口说明

EdgeBox_Umate_A100是一款嵌入式人工智能计算机,能够为各类终端设备赋予人工智能的能力,降低终端智能的开发门槛。EdgeBox_Umate_A100搭载了移动处理器——NVIDIA Jetson TX1,并且兼容TX2,是最适合边缘计算的高性能平台。 A100 算…

泰克示波器MD03012-一款高性能、高可靠性的仪器

泰克示波器MD03012是一款常见的仪器,以其出色的性能和高可靠性被广泛应用于电子工程、教学演示等领域。它采用先进的电子技术,具有高精度、高灵敏度和高可靠性等特点,能够满足工程师们在实际工作中的要求。 泰克示波器MD03012拥有一套强大的功…

Hi3516E V200功能介绍

Hi3516EV200 作为新一代行业专用HD IP 摄像机SOC,集成新一代ISP 以及业界最新的H265视频压缩编码器,同时采用先进低功耗工艺和低功耗架构设计,使得Hi3516EV200 在低码率、高画质、低功耗等方面引领行业水平。集成POR、RTC、Audio Codec&#…