苹果研究人员提出了一种新颖的AI算法来优化字节级表示以自动语音识别(ASR),并将其与UTF-8表示进行比较

embedded/2024/9/20 4:22:29/ 标签: 人工智能, 语音识别

端到端(E2E)神经网络已成为多语言自动语音识别(ASR)的灵活且准确的模型。然而,随着支持的语言数量增加,尤其是像中文、日语、韩语(CJK)这样大字符集的语言,输出层的大小显著增长。这种扩展对计算资源、内存使用和资产大小产生了负面影响。在多语言系统中,这一挑战尤为严重,因为输出通常包括来自各种语言的字符或子词的集合。因此,研究人员一直在努力在保持模型效率和性能的同时,适应多种语言及其相关字符集的E2E ASR系统。

之前在多语言ASR中解决这些挑战的尝试集中在字节级表示,特别是使用UTF-8代码字作为基本标记。这种方法允许固定输出词汇量为256,在各语言之间提供了紧凑性和通用性。然而,字节级表示通常会导致更长的序列,特别是对于CJK语言,可能会增加错误率,因为单个字符需要多个预测。研究人员提出使用字节对编码(BPE)在UTF-8代码字序列上的字节级子词来缓解这一问题。虽然这减少了解码步骤的数量,但并不保证有效的UTF-8输出。后续引入了一种动态编程算法,从潜在的无效字节序列中恢复有效字符,尽管这种方法优化了字符有效性而非ASR质量。

苹果研究人员 审查的最先进的方法提出了一种使用向量量化自编码器的鲁棒表示学习方法。该方法旨在专门为E2E ASR任务优化 字节级表示,解决了之前方法的局限性。该框架设计为数据驱动,结合文本和音频信息以提高准确性。它提供了包括额外边信息(如词典或音素)在内的灵活性,使其适应各种ASR场景。重要的是,该方法包括一个错误纠正机制来处理无效序列,且恢复过程优化了准确性而非其他指标。该方法符合研究人员对理想字节级表示的标准:任务特定优化、全面信息利用和有效的错误纠正。

类似的,光年AI在其AI系统中也采取了数据驱动的方法,结合了多平台的数据整合来提高业务效果,无需额外编程知识。通过简单的拖拽工作流设计,无论是复杂的ASR任务还是业务场景连接,用户都能轻松应对并有效适用,获得理想成果。

该方法将表示问题表述为具有潜在变量的优化任务,使用向量量化自编码器(VQ-AE)架构。该自编码器由四个关键组件组成:标签编码器、声学编码器、标签解码器和向量量化器。系统使用向量量化作为瓶颈,量化嵌入的索引作为潜在变量。

该自动编码器通过包含四个项的损失函数进行优化:标签和声学编码器的交叉熵损失、声学编码器的CTC损失以及量化损失。该方法采用了带有两个或三个代码簿的残差VQ-VAE(RVQ-VAE),每个代码簿包含256个嵌入,每个标签标记可由2-3个字节表示。

为处理字节序列中的潜在错误,该系统通过标签解码器引入了一种错误校正机制。该解码器估计最可能的标签序列,旨在即使面对无效的字节序列也能优化准确性。所提出的基于VQ的表示相比UTF-8具有优势,包括固定长度编码、任务特定优化和改进的错误恢复能力。

研究人员在双语英语和普通话听写任务上评估了他们提出的基于VQ的表示方法,并与字符基和UTF-8子词输出进行了对比。使用包含约1.2亿参数的CTC-AED模型,他们在10k小时的英语和14k小时的普通话训练数据集上测试了各种输出表示。

结果显示,基于VQ的表示在不同的子词大小上始终优于UTF-8子词输出。采用8000个子词时,基于VQ的方法相比UTF-8使英语的词错误率(WER)相对降低了5.8%,普通话的字符错误率(CER)相对降低了3.7%。与基于字符的输出相比,VQ和UTF-8表示在英语上表现更好,而在普通话上保持了相似的准确性。值得注意的是,采用8000个子词的基于VQ方法使英语的相对错误率降低了14.8%,普通话降低了2.3%,突显了其在多语言ASR系统中的有效性和灵活性。

本研究提出了一种优化ASR字节级表示的稳健算法,提供了UTF-8表示的替代方案。该方法可通过音频和文本数据进行优化,并设计了一种错误校正机制以提高准确性。在英语和普通话听写数据集上的测试显示,与基于UTF-8的方法相比,令牌错误率(TER)相对降低了5%。尽管当前研究专注于双语ASR,研究人员也承认开发通用表示以适用于所有语言的挑战,例如索引崩塌问题。

这一系列研究表明,通过集成不同的AI大模型和灵活的工作流机制,可以显著提升多语言ASR系统的表现。如果您想体验更多这样的AI创新,光年AI提供了强大的解决方案,帮助企业在复杂的业务场景中灵活运用AI技术,实现优异的流量增长。了解更多信息和使用光年AI,请立即访问我们的网站。


http://www.ppmy.cn/embedded/114042.html

相关文章

MTK芯片机型的“工程固件” 红米note9 5G版资源预览 写入以及改写参数相关步骤解析

小米机型:小米5 小米5x 米6 米6x 米8 米9 米10系列 米11系列 米12系列 mix mix2 mix2s mix3 max max2 max3 note3 8se 9se cc9系列 米play 平板系列等分享 红米机型:红米note4 红米note4x 红米note5 红米note6 红米note7 红米note8 红米note8pro 红米s2 红米note7pro 红米…

在RabbitMQ中四种常见的消息路由模式

1. Fanout模式 Fanout模式的交换机是扇出交换机(Fanout Exchange),它会将消息广播给所有绑定到它的队列,而不考虑消息的内容或路由键。 工作原理: 生产者发送消息到Fanout Exchange。Fanout Exchange会将消息广播给…

3款免费的GPT类工具

前言 随着科技的飞速发展,人工智能(AI)的崛起与发展已经成为我们生活中不可或缺的一部分。它的出现彻底改变了我们与世界互动的方式,并为各行各业带来了前所未有的便利。 一、Kimi 网址:点我前往 国产AI模型Kimi是一…

【系统架构设计师-2013年真题】案例分析-答案及详解

更多内容请见: 备考系统架构设计师-核心总结索引 文章目录 【材料1】问题1问题2【材料2】问题1问题2问题3问题4【材料3】问题1问题2问题3【材料4】问题1问题2问题3【材料5】问题1问题2问题3【材料1】 阅读以下关于企业应用系统集成架构设计的说明,在答题纸上回答问题1和问题…

【LabVIEW】事件结构的用法

本篇文章记录我学习LabVIEW的事件结构用法,希望我的分享对你有所帮助! 目录 一、案例说明 1、 LabVIEW实现“YAXBXC的计算” 2、添加事件结构 一、案例说明 在LabVIEW实现“YAXBXC的计算”的基础上,加上事件结构,实现单击一次按…

play-with-docker使用指南

Play-with-Docker(PWD)是一个在线平台,提供免费的 Docker 实验环境。它允许用户在浏览器中创建和管理 Docker 容器,适合学习和实验。国内访问需要借助于魔法工具,否则可能无法访问哦。 网站地址:https://labs.play-with-docker.com/ 一、登录play-with-docker 点击页面上…

Activiti7《第二式:破剑式》——工作流中的以柔克刚

冲冲冲!开干 这篇文章将分为九个篇章,带你逐步掌握工作流的核心知识。这篇文章将带你深入探讨工作流中的 “破剑式”,揭示如何通过 柔与刚 的结合来破解工作流的复杂性。本篇包含了 Activiti7 环境的进一步优化和表结构的深入分析&#xff0…

『 Linux 』HTTP(一)

文章目录 域名URLURLEncode和URLDecodeHTTP的请求HTTP的响应请求与响应的获取简单的Web服务器 域名 任何客户端在需要访问一个服务端时都需要一个IP和端口号,而当一个浏览器去访问一个网页时通常更多使用的是域名而不是IP:port的方式, www.baidu.com这是百度的域名; 实际上当浏…

聚焦:clicOH 借助 NVIDIA cuOpt 实现最后一英里交付速度 20 倍提升

受消费者行为转变和疫情影响,电子商务继续呈爆炸式增长和转型。因此,物流和运输公司发现自己处于包裹配送革命的前沿。这新的现实情况在最后一英里配送中尤为明显,而后者现在已经成为供应链物流中成本最高的要素,占从零售到制造等…

pWnOS的第二种全新解法(ssh私钥破解、webmin漏洞提权)

端口 端口扫描内容请看:vulnhub(8):pWnOS(还没信息收集就已经成功打点)-CSDN博客 打点 ssh登录公钥收集 ./2017.pl 192.168.234.116 10000 /home/vmware/.ssh/authorized_keys 0 ./2017.pl 192.168.234.11…

2020ICPC上海 D - Walker M - Gitignore

D: 首先显然要二分,判断当前二分的mid时间下是否能满足走满0~n 枚举所有情况,这里按照左,右起点p1,p2分别讨论 p1向左 p2向左(以下向左和向右都代表向左或者向右到墙,而不代表初速度方向),只需要计算p1或者p2反弹之后还能走距离n就是合法 p1向左 p2向右&#xff…

Nginx 实现七层的负载均衡

一、拓扑结构 [vip: 20.20.20.20] 外网 桥接模式(vip) 内网 nat模式[LB1 Nginx] [LB2 Nginx]192.168.1.2 192.168.1.3[index] [milis] [videos] [images] [news]1.11 1.21 1.31 1.41 1.511.12 1.22 1.32 1.42 1.5…

L67 【哈工大_操作系统】操作系统历史 学习任务

L6 操作系统历史 线条一 1、上古神机 IBM7094 专注于计算批处理操作系统(Batch system) 2、OS/360 一台计算机干多种事,多道程序作业之间的 切换和调度 成为核心 (多进程结构和进程管理概念萌芽!) 3…

Minio环境搭建(单机安装包、docker)(一)

前言: 项目中客户不愿意掏钱买oss,无奈只能给他免费大保健来一套。本篇文章只是记录验证可行性,毕竟minio太少文档了,参考着官网来。后面还会再出一套验证集群部署的文章。 一、资料 MinIO官网: MinIO | S3 Compatib…

黑神话悟空mac可以玩吗

黑神话悟空mac上能不能玩对于苹果玩家来说很重要,那么黑神话悟空mac可以玩吗?目前是玩不了了,没有针对ios系统的版本,只能之后在云平台上找找了,大家可以再观望下看看。 黑神话悟空mac可以玩吗 ‌使用CrossOver‌&…

架构师论文备考-论云原生架构及其应用

摘要 2022年3月,我有幸参与了公司的新智慧公交系统的研发工作。该系统基于B/S架构设计,并以多租户SaaS平台化为发展目标,旨在创建一个功能更全面、性能更卓越、稳定性更强、用户体验更佳的公交调度一体化平台。在这一项目中,我主要…

HarmonyOS 实现自定义启动页

👨🏻‍💻 热爱摄影的程序员 👨🏻‍🎨 喜欢编码的设计师 🧕🏻 擅长设计的剪辑师 🧑🏻‍🏫 一位高冷无情的全栈工程师 欢迎分享 / 收藏 / 赞 / 在看…

Mycat搭建分库分表

分库分表解决的问题 单表数据量过大带来的性能和存储容量的限制的问题: 索引效率下降读写瓶颈存储容量限制事务性能问题分库分表架构 再搭建一对主从复制节点,3307主节点,3309从节点配置数据源 dw1 , dr1,创建集群c1创建逻辑库 CREATE DATAB…

KL散度(Kullback-Leibler)

文章目录 1. KL 散度的符号表示2. "||"符号的含义3. KL 散度的定义4. 为什么使用"||"符号5. 直观理解6. 应用中的理解7. 举例说明8. 补充说明 🍃作者介绍:双非本科大四网络工程专业在读,阿里云专家博主,专注于…

k8s dashboard token 生成/获取

创建示例用户 在本指南中,我们将了解如何使用 Kubernetes 的服务帐户机制创建新用户、授予该用户管理员权限并使用与该用户绑定的承载令牌登录仪表板。 对于以下每个和的代码片段ServiceAccount,ClusterRoleBinding您都应该将它们复制到新的清单文件(如)…