Okay, But Please Don’t Stop Talking

研发背景

现有问题：像ChatGPT的高级语音模式这类先进的语音对语音系统，容易被“我明白”“嗯哼”等在人类对话中常见的插入语打断。这表明现有语音交互系统在处理自然对话中的语音重叠情况时存在不足。
新的尝试：研究人员为解决此问题，开发了一款开源的语音交互系统Moshi，旨在适应语音重叠的情况，实现更自然流畅的语音交互。

Moshi系统概述

发布信息：由巴黎非营利研究实验室Kyutai的Alexandre Défossez、Laurent Mazaré等人发布。该系统的权重和代码遵循CC - BY 4.0、Apache 2.0和MIT许可，可免费用于商业与非商业用途，并且提供了网页演示供用户体验。

关键理念

语音重叠情况：研究发现，在口语对话中，语音重叠现象较为普遍，占比可达20%，其中包含“好的”“我明白”这类常见的插入语。
系统设计要求：为了在语音重叠时做出恰当回应，语音交互系统需要具备持续倾听和发声的能力，即便多数时候发出的可能是沉默（即不说话但保持倾听和准备回应的状态）。同时，为了实现即时响应，系统要将延迟控制在最低限度，这就要求采用端到端的设计架构，而非传统的由多个独立模型依次完成语音检测、语音转文本、文本处理、文本转语音的流水线式架构。

工作原理

组件构成：Moshi系统由Mimi编码器 - 解码器和RQ - Transformer组成，其中RQ - Transformer又包含基于Helium变压器的大语言模型（LLM）以及另一个变压器。
Mimi编码器训练：
- 嵌入音频输入：Mimi的编码器以每80毫秒（每个时间步）8个音频令牌的方式对输入的语音进行嵌入处理。
- 训练数据与损失项：使用700万小时来源未公开的英语语音数据进行训练。训练过程涉及两个损失项：
- 第一个损失项促使Mimi生成能欺骗预训练的MS - STFT鉴别器的音频，让鉴别器误以为生成的是人类语音，以此提升生成音频的质量。
- 第二个损失项从预训练的音频嵌入模型WavLM中提取知识，使Mimi的编码器在与WavLM接收相同音频时间步时，生成的其中一个音频令牌的嵌入与WavLM生成的相应嵌入相似，从而优化音频嵌入效果。
Helium大语言模型训练：Helium大语言模型依据Mimi生成的音频令牌生成文本令牌，这些文本令牌在系统内部协助额外的变压器预测下一个音频令牌，利用大语言模型处理语言的能力来指导音频令牌的生成。研究人员使用2.1万亿个英语文本令牌对Helium进行训练，这些数据部分来自维基百科和Stack Exchange（占12.5%），其余大部分（87.5%）来自Common Crawl。
RQ - Transformer训练：RQ - Transformer每个时间步接收三组共17个令牌，分别是Mimi从音频输入编码得到的8个音频令牌、Moshi先前生成的音频输出中的8个音频令牌，以及Helium生成的1个文本令牌。通过在700万小时的音频及转录文本数据上进行学习，RQ - Transformer能够预测下一组17个令牌。
对话交互训练：为使系统更适应对话交互场景，研究人员使用2000小时随机配对参与者之间的电话录音对话数据，进一步训练系统预测下一个令牌。
推理过程：在实际应用（推理）时，用户语音输入后，Mimi将其转换为音频令牌。RQ - Transformer依据当前音频令牌以及之前生成的音频和文本令牌，生成新的音频和文本令牌。最后，Mimi根据生成的音频令牌产生合成语音，完成一次语音交互。

实验结果

响应速度：Moshi（拥有70亿参数）对用户输入的响应时间约为200毫秒，相比之下，同样能直接从语音输入生成语音输出的GPT - 4o最短响应时间为232毫秒（平均320毫秒），而早期ChatGPT语音模式（采用传统流水线架构）平均响应时间高达5.4秒。这表明Moshi在响应速度上具有显著优势。
准确率：在Web Questions测试中，Moshi的准确率达到26.6%，高于研究人员测试的其他语音转文本再转语音模型，如Spectron（10亿参数，准确率6.1%）和SpeechGPT（70亿参数，准确率6.5%）。但文中未给出GPT - 4o或ChatGPT语音模式在此测试中的可比结果。

重要意义

语音交互需求：传统基于轮流的文本输入交互方式，在语音对语音交互场景中存在局限性。语音交互更需要系统能够快速且持续地处理输入和输出，以实现自然流畅的对话体验。
Moshi的优势：以往的语音交互系统将输入和输出处理分开，导致用户等待时间较长，影响交互体验。而Moshi通过端到端的设计，实现了无缝交互，满足了语音对语音交互场景下的实际需求。

相关思考

“生成沉默是关键”这句话强调了在语音交互过程中，系统不仅要能及时准确地回应，还要能在适当的时候保持沉默（即持续倾听而不发声），以适应自然对话中语音重叠等复杂情况，这是实现自然流畅语音交互的重要因素。