【AIGC】OpenAI 宣布推出Whisper large-v3-turbo 语音转录模型 速度提高了8倍

server/2024/10/18 14:15:24/

OpenAI 宣布推出了一个名为 large-v3-turbo(简称 turbo)的新 Whisper 模型。这是 Whisper large-v3 的优化版本,将解码器层数从大型模型的 32 层减少到与 tiny 模型相同的 4 层。此优化版本的开发受到了 Distil-Whisper 的启发,后者表明使用较小的解码器可以显著提升转录速度,同时对准确性的影响较小。

速度比 large-v3 快 8 倍,但质量几乎没有下降!

Whisper large-v3-turbo 主要功能和特点:

  1. 更少的解码器层数
    • 与 Whisper large-v3 相比,large-v3-turbo 只使用了 4 个解码器层,而 large-v3 使用了 32 个解码器层。较少的解码器层数使得模型在保持相对高准确度的同时,显著提高了处理速度。
  2. 优化的速度表现
    • Turbo 模型的语音转录速度比 tiny 模型更快,是 Whisper 系列模型中速度与准确性兼顾的“最佳选择”。通过使用更小的解码器层数,该模型提升了实时转录的能力。
    • 通过减少解码层数和启用 torch.compile,推理速度可提升高达 4.5 倍,进一步提高了模型的效率,非常适合需要低延迟的应用场景。
  3. 多语言支持
    • 支持 99 种语言的语音转录,表现出色,并且与大型数据集兼容,包括 FLEURS 和 Common Voice 数据集,尤其在高质量录音上效果更佳。
  4. 跨语言的高效表现
    • Turbo 模型的跨语言转录表现与 large-v2 相当,但在一些语言(如泰语和粤语)上表现较弱。在一些录音质量较高的数据集(如 FLEURS)上,turbo 模型的表现优于 Common Voice 数据集。
  5. 更快的自动语音识别 (ASR)
    • 结合最新的技术补丁(#2359),turbo 模型在使用 F.scaled_dot_product_attention(缩放点积注意力机制)时,能进一步提升自动语音识别的速度。
  6. 专注于转录任务
    • Turbo 模型专为多语言转录任务微调,不适合翻译任务,因为训练时不包含翻译数据。它在纯语音转录方面的表现更为优异,但翻译任务表现较差。
  7. 使用与集成方便
    • 开发者可以通过简单的 Python 包更新或 Whisper 的命令行工具默认使用 turbo 模型,使得其在实际应用中更易于集成。

http://www.ppmy.cn/server/130779.html

相关文章

区块链到底是什么?

区块链是一种分布式、数字化的、不可篡改的账本,用于记录交易和以安全透明的方式存储数据。它基于一个去中心化的节点网络,这些节点共同维护一个权威记录,允许参与者直接与协议交互,而无需中介服务商。 区块是一种容器数据结构&a…

一个为分布式环境设计的任务调度与重试平台,高灵活高效率,系统安全便捷,分布式重试杀器!(附源码)

背景 近日挖掘到一款名为“SnailJob”的分布式重试开源项目,它旨在解决微服务架构中常见的重试问题。在微服务大行其道的今天,我们经常需要对某个数据请求进行多次尝试。然而,当遇到网络不稳定、外部服务更新或下游服务负载过高等情况时,请求…

【STM32单片机_(HAL库)】5-1-1【独立看门狗IWDG】独立看门狗IWDG配置步骤

独立看门狗IWDG工作原理 溢出时间计算 独立看门狗IWDG配置步骤

webpack学习

Webpack模块打包工具 初始 Webpack 是一个静态模块打包工具,从入口构建依赖图,打包有关模块 1.静态模块:编写代码过程中的,html,css, js,图片等固定内容的文件 2.打包过程,注意:只…

基于单片机的公交车自动报站器设计

本设计是以STM32单片机为控制核心的公交车自动报站系统,该系统的主要构成模块有:控制核心模块、GPS模块、温度模块、语音模块、按键控制模块和显示模块。采用点阵显示屏,可自动显示下一站,使用OLED显示器显示温度和经纬度&#xf…

C# udp通信测试助手-点对点-网络断开检测

1、界面和功能如下,实现功能 (1)100毫秒接收一次,超过1秒钟没有接收到目标信息,则视为连接断开 (2)接收的Soecket目标地址、端口号显示 (3)1秒钟自动发送 &#xff0…

Oceanbase学习之—docker下oceanbase部署体验

一、操作系统及配置 [rootlocalhost ~]# cat /etc/redhat-release CentOS Linux release 7.9.2009 (Core) [rootlocalhost ~]# free -g total used free shared buff/cache available Mem: 15 3 7 0 …

Linux Cent7 已安装MySQL5.7.X,再安装MYSQL8.4.2

一、 下载安装 检查Linux系统的glibc版本rpm -qa | grep glibc结果:glibc-common-2.17-260.el7_6.6.x86_64 glibc-2.17-260.el7_6.6.x86_64 glibc-headers-2.17-260.el7_6.6.x86_64 glibc-devel-2.17-260.el7_6.6.x86_64访问MySQL官网,下载对应版本数据…