Meta 开源语音 AI 模型支持 1,100 多种语言

news/2024/11/2 5:40:22/

自从ChatGPT火爆以来,各种通用的大型模型层出不穷,GPT4、SAM等等,本周一Meta 又开源了新的语音模型MMS,这个模型号称支持4000多种语言,并且发布了支持1100种语言的预训练模型权重,最主要的是这个模型不仅支持ASR,还支持TTS,也就是说不仅可以语音转文字,还可以文字转语音。

因为以前对语音方面没有研究,所以我就查阅了一下资料,世界上一共有 7,000 多种语言(我一直以为只有几百),目前的语音识别技术目前仅能覆盖100多种,其实我觉得100多种已经够用了,当然如果有特殊的研究需要那要另说。

Facebook (Meta) AI 的最新大型多语言语音 (MMS) 项目可以为 1,100 多种语言提供语音转文本、文本转语音等功能。这是现有模型的 10 倍!它的官网blog上特别提到了Tatuyo 语,只有几百人在使用。这其实对于日常来说没什么用,但是对于研究来说这是一个很好的例子,因为只有几百人如何找到并有效的提炼数据集呢?

Meta 与 OpenAI 的 Whisper 做了详细的对比,在数据上训练的模型实现了一半的单词错误率,并且训练数据更少:

可以看到它的训练数据只有45k 小时的标注数据,要比Whisper少10倍,而语言支持也多了10倍,这是一个大的提高。在blog中还特意提到了使用了 《圣经》这种流传广泛,翻译语种多的内容作为数据集,我觉得这是一个很好方向。

MMS 项目还利用了 wav2vec 2.0 自监督语音表示学习技术的优势。在 1,400 种语言的大约 500,000 小时的语音数据上进行自监督的训练,明显减少了对标记数据的依赖。然后针对特定的语音任务对生成的模型进行微调,例如多语言语音识别和语言识别。

Whisper 的效果对于我来说就已经非常好了,我也一直在使用他做为语言转文字的工具,如果MMS的效果更好,那对于我们来说简直太棒了,并且MMS还支持 language identification (LID) 也就说可以自动识别所说的语言,但是经过我的测试,这个对于支持这么多种语言的模型来说有一个致命的错误,就是转录或错误解释可能会导致冒犯性或不准确的语言。

还记得大张伟吗,越是准确的模型越会出问题:

这种多语言语音模型的出现使得语言障碍将被打破,来自全球每个角落人们都可以通过声音正常的交流。还记得META烂尾的VR和AR应用吗,我觉得MMS应该是它们VR的一个子项目,VR烂尾很正常,但是这个MMS会为我们带来更多的进步。

最后地址,里面有预训练模型下载和安装方法:

https://avoid.overfit.cn/post/b4e41042a2ee4a21a82e4a48f1061f05


http://www.ppmy.cn/news/81847.html

相关文章

控制系统典型应用车型 —— 潜入顶升式AMR

车型介绍: “潜入顶升AMR”是由驱动装置车身装置升降装置等结构组成的高性能移动机器人。通过复杂的智能技术来合理的路径规划,以适应环境并在其中导航,结合近距离激光雷达、碰撞传感器等技术,可以在高速运转的同时,潜伏至货物固…

pdf文件如何修复

PDF文件是一种非常常见的文档格式,因为它们可以在几乎任何平台上都进行查看和共享。但是,有时PDF文件会损坏或出错,当这种情况发生时,我们该怎么办呢?受到损坏的pdf文件如何修复?本文将为你介绍几种有效的方法。 一、尝试将PDF文…

spring 源码

bean的创建 获取类class 推断构造方法 Autoware 创建一个普通对象 依赖注入 populateBean 把一些属性注入 初始化之前 PostConstruct 注解 初始注入 实际可以用构造方法啊 初始化 initializationBean 1.判断是否有aware接口 invokeAwareMethods 2.执行 applyBeanP…

【openGauss】如何将数据库中的自定义复合类型绑定到java的class中

前言 某客户,将应用的数据库从oracle迁移到openGauss系,源库中使用了大量的自定义type,所以java代码里也有很多对type对象的处理。在oracle中可以直接传对象给数据库,但是openGauss/postgresql的源码用例中,都是通过P…

LeetCode 198 打家劫舍

题目: 你是一个专业的小偷,计划偷窃沿街的房屋。每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警。给定一个代表每个…

luatOS网站 lua语言学习 练习题

lua 教程跳转链接&#xff0c;练习题都来自这里 逻辑运算 检验大小&#xff08;自测题&#xff09; 题目&#xff1a;如果已知number变量n&#xff0c;那么如果需要判断n是否符合下面的条件&#xff1a; 3<n≤10 以下四行判断代码&#xff0c;正确的是&#xff1f; &a…

Python+Yolov5果树上的水果(苹果)检测识别

程序示例精选 PythonYolov5果树上的水果(苹果)检测识别 如需安装运行环境或远程调试&#xff0c;见文章底部个人QQ名片&#xff0c;由专业技术人员远程协助&#xff01; 前言 这篇博客针对<<PythonYolov5果树上的水果(苹果)检测识别>>编写代码&#xff0c;代码整洁…

oracle如何写一个带参数的视图

--创建参数包 create or replace package view_risk is function set_depcode(depcode varchar2) return varchar2; function get_depcode return varchar2; function set_dmonth(dmonth varchar2) return varchar2; function get_dmonth return varchar2; end view_r…