Okay, But Please Don’t Stop Talking

embedded/2025/2/18 21:04:43/

Okay, But Please Don’t Stop Talking

研发背景

  • 现有问题:像ChatGPT的高级语音模式这类先进的语音对语音系统,容易被“我明白”“嗯哼”等在人类对话中常见的插入语打断。这表明现有语音交互系统在处理自然对话中的语音重叠情况时存在不足。

  • 新的尝试:研究人员为解决此问题,开发了一款开源的语音交互系统Moshi,旨在适应语音重叠的情况,实现更自然流畅的语音交互。

Moshi系统概述

  • 发布信息:由巴黎非营利研究实验室Kyutai的Alexandre Défossez、Laurent Mazaré等人发布。该系统的权重和代码遵循CC - BY 4.0、Apache 2.0和MIT许可,可免费用于商业与非商业用途,并且提供了网页演示供用户体验。

关键理念

  • 语音重叠情况:研究发现,在口语对话中,语音重叠现象较为普遍,占比可达20%,其中包含“好的”“我明白”这类常见的插入语。

  • 系统设计要求:为了在语音重叠时做出恰当回应,语音交互系统需要具备持续倾听和发声的能力,即便多数时候发出的可能是沉默(即不说话但保持倾听和准备回应的状态)。同时,为了实现即时响应,系统要将延迟控制在最低限度,这就要求采用端到端的设计架构,而非传统的由多个独立模型依次完成语音检测、语音转文本、文本处理、文本转语音的流水线式架构。

工作原理

  • 组件构成:Moshi系统由Mimi编码器 - 解码器和RQ - Transformer组成,其中RQ - Transformer又包含基于Helium变压器的大语言模型(LLM)以及另一个变压器。

  • Mimi编码器训练

    • 嵌入音频输入:Mimi的编码器以每80毫秒(每个时间步)8个音频令牌的方式对输入的语音进行嵌入处理。

    • 训练数据与损失项:使用700万小时来源未公开的英语语音数据进行训练。训练过程涉及两个损失项:

    • 第一个损失项促使Mimi生成能欺骗预训练的MS - STFT鉴别器的音频,让鉴别器误以为生成的是人类语音,以此提升生成音频的质量。

    • 第二个损失项从预训练的音频嵌入模型WavLM中提取知识,使Mimi的编码器在与WavLM接收相同音频时间步时,生成的其中一个音频令牌的嵌入与WavLM生成的相应嵌入相似,从而优化音频嵌入效果。

  • Helium大语言模型训练:Helium大语言模型依据Mimi生成的音频令牌生成文本令牌,这些文本令牌在系统内部协助额外的变压器预测下一个音频令牌,利用大语言模型处理语言的能力来指导音频令牌的生成。研究人员使用2.1万亿个英语文本令牌对Helium进行训练,这些数据部分来自维基百科和Stack Exchange(占12.5%),其余大部分(87.5%)来自Common Crawl。

  • RQ - Transformer训练:RQ - Transformer每个时间步接收三组共17个令牌,分别是Mimi从音频输入编码得到的8个音频令牌、Moshi先前生成的音频输出中的8个音频令牌,以及Helium生成的1个文本令牌。通过在700万小时的音频及转录文本数据上进行学习,RQ - Transformer能够预测下一组17个令牌。

  • 对话交互训练:为使系统更适应对话交互场景,研究人员使用2000小时随机配对参与者之间的电话录音对话数据,进一步训练系统预测下一个令牌。

  • 推理过程:在实际应用(推理)时,用户语音输入后,Mimi将其转换为音频令牌。RQ - Transformer依据当前音频令牌以及之前生成的音频和文本令牌,生成新的音频和文本令牌。最后,Mimi根据生成的音频令牌产生合成语音,完成一次语音交互。

实验结果

  • 响应速度:Moshi(拥有70亿参数)对用户输入的响应时间约为200毫秒,相比之下,同样能直接从语音输入生成语音输出的GPT - 4o最短响应时间为232毫秒(平均320毫秒),而早期ChatGPT语音模式(采用传统流水线架构)平均响应时间高达5.4秒。这表明Moshi在响应速度上具有显著优势。

  • 准确率:在Web Questions测试中,Moshi的准确率达到26.6%,高于研究人员测试的其他语音转文本再转语音模型,如Spectron(10亿参数,准确率6.1%)和SpeechGPT(70亿参数,准确率6.5%)。但文中未给出GPT - 4o或ChatGPT语音模式在此测试中的可比结果。

重要意义

  • 语音交互需求:传统基于轮流的文本输入交互方式,在语音对语音交互场景中存在局限性。语音交互更需要系统能够快速且持续地处理输入和输出,以实现自然流畅的对话体验。

  • Moshi的优势:以往的语音交互系统将输入和输出处理分开,导致用户等待时间较长,影响交互体验。而Moshi通过端到端的设计,实现了无缝交互,满足了语音对语音交互场景下的实际需求。

相关思考

“生成沉默是关键”这句话强调了在语音交互过程中,系统不仅要能及时准确地回应,还要能在适当的时候保持沉默(即持续倾听而不发声),以适应自然对话中语音重叠等复杂情况,这是实现自然流畅语音交互的重要因素。


http://www.ppmy.cn/embedded/162379.html

相关文章

C++-----------酒店客房管理系统

酒店客房管理系统 要求: 1.客房信息管理:包括客房的编号、类型、价格、状态等信息的录入和修改; 2.顾客信息管理:包括顾客的基本信息、预订信息等的管理; 3.客房预订:客户可以根据需要进行客房的预订,系统会自动判断客房的可用情况; 4.入住管理:客户入住…

在vs code中运行python程序时,将解释器设置为uv虚拟环境构建的解释器。

在VS Code中运行Python程序时,正确配置虚拟环境解释器是项目依赖管理的重要环节。以下是如何使用uv工具创建虚拟环境并在VS Code中切换解释器的完整流程: 一、uv虚拟环境创建 安装uv工具 pip install uv创建虚拟环境 在项目根目录执行以下命令&#xff0…

借助 Docker 环境变量,实现1分钟上线在线客服系统

最新版本的客服系统 Docker 镜像加入了对环境变量的支持,可以在 docker run 时直接指定域名和IP,一键上线,不再需要进入容器内修改配置文件。 从 Docker Hub 下载服务器镜像 docker pull iccb1013/linkup:latest 用以下启动命令为例&#x…

用vue3写一个好看的wiki前端页面

以下是一个使用 Vue 3 Element Plus 实现的 Wiki 风格前端页面示例&#xff0c;包含现代设计、响应式布局和常用功能&#xff1a; <template><div class"wiki-container"><!-- 头部导航 --><el-header class"wiki-header"><d…

【开源项目】数字孪生哈尔滨CIM/BIM—开源工程及源码

飞渡科技数字孪生哈尔滨CIM管理平台&#xff0c;基于国产自研数字孪生引擎&#xff0c;以及物联网IOT、云计算等技术&#xff0c;集成新一代感知、网络、算力等基础设施数据&#xff0c;利用数字技术赋能城市规划、交通监测以及应急管理等业务领域&#xff0c;助力提升城市管理…

知识拓展:Python序列化模块 marshal 模块详解

Python marshal 模块学习笔记 1. 简介 marshal 是 Python 的内部序列化格式&#xff0c;主要用于序列化和反序列化 Python 对象。它是 Python 字节码&#xff08;.pyc文件&#xff09;使用的序列化格式&#xff0c;比 pickle 更原始和受限&#xff0c;但也更快速和安全。 http…

Node.js HTTP模块详解:创建服务器、响应请求与客户端请求

Node.js HTTP模块详解&#xff1a;创建服务器、响应请求与客户端请求 Node.js 的 http 模块是 Node.js 核心模块之一&#xff0c;它允许你创建 HTTP 服务器和客户端。以下是一些关键知识点和代码示例&#xff1a; 1. 创建 HTTP 服务器 使用 http.createServer() 方法可以创建…

数仓:核心概念,数仓系统(ETL,数仓分层,数仓建模),数仓建模方法(星型模型,雪花模型,星座模型)和步骤

数仓建模的核心概念 事实表&#xff08;Fact Table&#xff09;&#xff1a; 存储业务过程的度量值&#xff08;如销售额、订单数量等&#xff09;。 通常包含外键&#xff0c;用于关联维度表。 维度表&#xff08;Dimension Table&#xff09;&#xff1a; 存储描述性信息&…