谷歌推出“能讲会听”的大语言模型AudioPaLM,实现语音理解和生成

news/2024/11/29 7:41:46/

出品人:Towhee 技术团队

作者:顾梦佳

近日,谷歌推出了一个能够理解并生成语音理解的大型语言模型——AudioPaLM。这一模型融合了分别基于文本和语音两种语言模型——PaLM-2 和 AudioLM,形成了一个统一的多模态架构。该模型不仅能对文本进行处理,还能处理音频,实现多模态处理。另外,AudioPaLM 还同时继承了AudioLM 和PaLM-2的能力,比如保留语音信息(如说话人身份和语调)以及文本大语言模型所独有的语言知识。

alt |Speech-to-Speech Translation & Automatic Speech Recognition by AudioPaLM

AudioPaLM 能够模拟由文本和音频 token 组成的序列。模型采用仅用解码器的Transformer结构来处理输入,将文本和音频作为任意整数序列,输入前进行分词,输出后再进行反分词。AudioPaLM 在处理音频数据时,首先从现有语音表征模型中提取向量,然后将这些向量离散化为一组有限的音频token,用于表示语音。结合该音频词汇表和一个用于表示文本的SentencePiece,模型构建了一个多模态词汇表。

由于 AudioPaLM 是基于 Transformer 模型的大语言模型,它可以使用基础的文本预训练模型来初始化权重,从而受益于 PaLM 或 PaLM 2 等模型的语言和常识知识。由于统一的多模态架构,AudioPaLM 能够使用直接映射或组合任务的方式来解决语音识别、语音合成和语音翻译等问题。单一任务包括自动语音识别(ASR)、自动语音翻译(AST)、语音到语音翻译(S2ST)、文本到语音(TTS)和文本到文本机器翻译(MT)等。为了指定模型在给定输入上执行的任务,可以在输入前加上标签,指定任务和输入语言的英文名称,输出语言也可以选择加上。例如,[ASR French]表示执行法语的自动语音识别任务,[TTS English]表示执行英语的文本到语音任务,[S2ST English French]表示执行从英语到法语的语音到语音翻译任务,而组合任务的标签[ASR AST S2ST English French]表示依次进行从英语到法语的自动语音识别、自动语音翻译、语音到语音翻译。微调使用的数据集包含音频、音频的转录、音频的翻译、音频的翻译文本等。一个数据集可以用于多个任务,将同一数据集中的多个任务结合起来可以提高性能。

alt |Top level experiment results of AudioPaLM

AudioPaLM 在语音翻译基准测试中展示了最先进的结果,并在语音识别任务上表现出竞争性能。利用 AudioLM 的语音提示,该模型还可以对未见过的讲话者进行 S2ST,超越现有方法,以客观和主观评估的方式衡量语音质量和声音保持。另外,该模型展示了零样本迁移的能力,可以使用训练中未曾出现过的语音输入/目标语言组合进行 AST。

总的来说,AudioPaLM 是一款非常强大的语音理解与生成的大型语言模型,能够处理和生成语音和文本,并且可以被应用于语音识别和语音翻译等领域。它为语音技术领域的发展带来了新的思路和突破,将有助于大大提高语音理解和生成的准确性和效率,为人们的生活带来更多便利。另外,这一新技术的出现也让机器更加“聪明”、更加接近人类。

相关资料:

  • 论文链接: https://arxiv.org/abs/2306.12925
  • 官方演示: https://google-research.github.io/seanet/audiopalm/examples/

🌟全托管 Milvus SaaS/PaaS 即将上线,由 Zilliz 原厂打造!覆盖阿里云、百度智能云、腾讯云、金山云。目前已支持申请试用,企业用户 PoC 申请或其他商务合作请联系 business@zilliz.com。


  • 如果在使用 Milvus 或 Zilliz 产品有任何问题,可添加小助手微信 “zilliz-tech” 加入交流群。

  • 欢迎关注微信公众号“Zilliz”,了解最新资讯。 alt

本文由 mdnice 多平台发布


http://www.ppmy.cn/news/569365.html

相关文章

装机tip

本文总结至https://www.bilibili.com/video/BV1jE411e7hw?p2 一定要看视频! CPU 注意将CPU按照指定方式进行放置,下方的管脚很脆弱,不要碰触,坏掉的话返厂维修价格50-100 内存条 具有优先级,从左往右24为优先插槽&am…

黑群引导制作及系统安装(文后附软件包)

详细参考链接:黑群引导制作及系统安装(附软件包) – Rookie diary (tuyogf.top)https://tuyogf.top/%e9%bb%91%e7%be%a4%e5%bc%95%e5%af%bc%e5%88%b6%e4%bd%9c%e5%8f%8a%e7%b3%bb%e7%bb%9f%e5%ae%89%e8%a3%85%ef%bc%88%e9%99%84%e8%bd%af%e4%…

计算机异常断电后无法启动,电脑突然断电,详细教您电脑突然断电后开不了机怎么办...

我们的电脑在日常生活之中也会见到一些小故障,所以,多多了解一些有关于电脑的小知识,对于我们来说也是非常的有必要的,突然断电对电脑是肯定有影响的,那电脑突然断电后开不了机怎么办?下面,小编…

(动态规划) 5. 最长回文子串 ——【Leetcode每日一题】

❓ 5. 最长回文子串 难度:中等 给你一个字符串 s,找到 s 中最长的回文子串。 如果字符串的反序与原始字符串相同,则该字符串称为回文字符串。 示例 1: 输入:s “babad” 输出:“bab” 解释&#xff1a…

Android 中Looper机制详解

版本基于:Android R 0. 前言 在《Android 基于Handler 剖析消息机制》一文中,以 Handler 类为起点详细分析了异步通信,分析了Java 端 Handler 与Looper、MessageQueue、Message 之前的通信关系。 框架如下: 在Java 端的 Looper …

可视化的工时管理:让项目进度真实可见

在现代项目管理中,工时表软件作为一种强大而有效的工具,能够帮助团队更好地管理项目进度。无论是大小型项目,正确使用工时表软件都可以提高团队的效率和项目的可追踪性。本文将介绍一些关键步骤,以帮助企业利用工时表软件来管理项…

office 2021下载地址

http://officecdn.microsoft.com/pr/492350f6-3a01-4f97-b9c0-c7c6ddf67d60/media/zh-cn/HomeStudent2021Retail.img

Adobe Audition CC 2019 下载安装教程

一、下载 链接: https://pan.baidu.com/s/1JVw2HjgsF240-1bxLJNISA 提取码: fr33 下载好后解压 解压后的文件如下 二、安装 1.以管理员身份运行Set-up.exe 更改安装位置 创建一个名为“AU2019”文件夹,然后点击确定 点击继续 等待安装完成后,点击关闭…