最佳语音识别 Whisper-large-v3-turbo 上线,速度更快(本地安装 )

embedded/2024/10/18 10:20:33/

Openai 上线语音模型whisper-large-v3-turbo

在本文中,我们将介绍 whisper-large-v3-turbo 以及 whisper-web(一个直接在浏览器中进行ML语音识别的开源项目)。

尽管近年来出现了许多音频和多模态模型,但Whisper 仍是生产级自动语音识别(ASR)的首选。

Whisper 是一种最先进的自动语音识别 (ASR) 和语音翻译模型,由 OpenAI 的 Alec Radford 等人在论文《 通过大规模弱监督实现稳健语音识别》中提出。

Whisper 模型有两种风格:纯英语和多语言。纯英语模型接受英语语音识别任务的训练。多语言模型同时进行多语言语音识别和语音翻译训练。对于语音识别,该模型会预测与音频相同语言的转录。对于语音翻译,该模型会预测转录为与音频不同的语言。

Whisper 检查点有五种不同型号尺寸的配置。最小的四种语言有纯英语和多语言版本。最大的检查站仅支持多种语言。Hugging Face Hub上提供了所有十个预先训练的检查点。下表总结了检查点:

新推出的 Whisper Turbo 模型是 OpenAI 开发的,经过约 500 万小时的标记数据训练,具有出色的泛化能力。

与其前身 Whisper 大型版本 3 相比,Turbo 版在解码层数上从 32 降至 4,运行速度更快,尽管质量略有下降,但差别非常小。

我们将通过 Hugging Face 本地安装该模型,尝试几个音频文件:

创建一个简单的虚拟环境

安装一些先决条件,包括 Torch、Transformers 等。

图片

现在启动 Jupyter Notebook

图片

Jupyter Notebook 启动后,我们导入所有库,然后获取模型,我们选择 Whisper 大型版本 3 Turbo,然后下载模型并将其放入我们的 CUDA 设备(即 GPU),接着我会初始化这个自动语音识别的管道,提供模型、分词器,并指定我们的 CUDA 设备。

图片

这个模型非常轻量级,不到 2GB。

图片

下载完成后,你只需提供本地音频文件,或者你也可以加载来自 Hugging Face 的任何音频数据集,并进行处理。

正常work:

图片


http://www.ppmy.cn/embedded/123692.html

相关文章

直立行走机器人技术概述

直立行走机器人技术作为现代机器人领域的重要分支,结合了机械工程、计算机科学、人工智能、传感技术和动态控制等领域的最新研究成果。随着技术的不断发展,直立行走机器人在救灾、医疗、家庭辅助等领域开始发挥重要作用。本文旨在对直立行走机器人的相关…

ubuntu18.04运行OpenPCDet出现的问题

一、概述 在编译成功OpenPCDet的源代码之后,发现在运行demo时候,依旧出现了很多问题,在此对出现的问题进行总结记录。 二、问题分析 (一)ModuleNotFoundError:No module named av2 如图所示 这个问题比较简单&#x…

驱动中的device和device_driver结构体

device和device driver是Linux驱动开发的基本概念。Linux kernel的思路很简单:驱动开发,就是要开发指定的软件(driver)以驱动指定的设备,所以kernel就为设备和驱动它的driver定义了两个数据结构,分别是devi…

探索基于基于人工智能进行的漏洞评估的前景

根据2023年的一份报告 网络安全企业据估计,到 10.5 年,网络犯罪每年将给世界造成 2025 万亿美元的损失。每年记录在案的网络犯罪数量都会创下新高。这要求对传统的安全测试流程进行重大改变。这就是漏洞评估发挥作用的地方。 漏洞评估对于识别系统中的弱…

毕业设计选题:基于ssm+vue+uniapp的医院管理系统小程序

开发语言:Java框架:ssmuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:M…

计算机视觉算法知识详解(含代码示例)

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

【系统架构设计师】专题:基于构件的软件工程考点

更多内容请见: 备考系统架构设计师-核心总结目录 文章目录 一、构件概述二、构件模型三、CBSE的特征四、CBSE的过程五、构件组装一、构件概述 基于构件的软件工程(Component-Based Software Engineering,CBSE) 是一种基于分布对象技术、 强调通过可复用构件设计与构造软件系…

0基础学前端 day9--css布局

CSS布局概述 一、引言 CSS布局是Web开发中至关重要的一部分,用于控制网页元素的排列和显示方式。不同的布局技术被应用于网页设计中,以确保其在各种设备和屏幕尺寸上都具有良好的用户体验。CSS布局技术包括浮动(float)、定位&am…