本教程展示了如何使用来自 wav2vec 2.0 [论文] 的预训练模型进行语音识别。 一、概述 语音识别的过程如下所示: 从音频波形中提取声学特征逐帧估计声学特征的类别根据类别概率序列生成假设 Torchaudio 提供了便捷的访问预训练权重及相关信息的方式,例如预期的采样率和类别标签。这些信息被打包在一起,并可通过 torchaudio.pipelines 模块获取。 二、准备工作 import torch import torchaudioprint(torch.__version__) print(torchaudio.__version_