游戏语音趋势解析,社交互动有助于营造沉浸式体验

server/2025/1/11 4:52:56/

语音交互的新架构出现

2024 年标志着对话语音 AI 取得了突破,出现了结合 STT → LLM → TTS 模型来聆听、推理和回应对话的协同语音系统。

OpenAI 的 ChatGPT 语音模式将语音转语音技术变成了现实,引入了基于音频和文本信息进行端到端预训练的模型,这些模型除了文本标记外,还能原生理解和生成音频。虽然 OpenAI 通过其Realtime API实现的可能还不是完全端到端的,正如其演示中处理中断的挑战所证明的那样,但它代表着朝着使用单一统一模型进行语音交互迈出了重要的一步。

语音 AI API 不断发展,实现企业级自然对话

2024 年,现代语音代理架构的三个核心组件的改进使语音 AI 能够用自然对话取代僵化的“按 1 转英语”电话树。

  • 语音转文本 (STT):转录质量已经足够强大,可以使其成为设计音频原生应用程序的标准工具。然而,领域特定术语和远场转录等问题仍然具有挑战性。2022 年,OpenAI 的Whisper凭借其开源模型奠定了基础,该模型在令人印象深刻的 680,000 小时多语言音频数据上进行了训练。Deepgram的 Nova-2 模型此后提高了标准,将单词错误率 (WER) 降低了 30%,并为 2024 年的商业应用设定了新的基准。

  • 大型语言模型 (LLM):2024 年GPT-4o、Llama 3.2、Claude 3.5 Sonnet和Gemini 2.0的发布标志着推理和效率的大幅提升。LLM 成本从 GPT-4 的 45 美元/百万大幅下降到Together AI上运行的 Llama 3.1 70B 的 2.75 美元/百万代币。语音模型现在支持输入流,允许音频在从 LLM 接收输入时实时生成,同时保持语音片段之间的一致韵律。

  • 文本转语音 (TTS):TTS 模型已达到生产级成熟度,在处理复杂内容(例如首字母缩略词和数字表达式)时,延迟更低、自然度更高、准确度更高。领先的 TTS 引擎已将合成声音从机器人般的声音转变为真正像人类一样的语音。这一进步得益于神经网络架构(SSM、Transformers、扩散模型)的创新、训练数据质量和多样性的进步以及音频编解码器的优化——这对于高效编码和解码用于流式传输或存储的数字音频至关重要。

    如果说传统的游戏语音讲究的是保障玩家稳定的交流体验,解决影响体验的常见问题,那么,网易云信提供的游戏语音则更进一步,其核心在于通过个性化服务和持续的技术革新,以尽可能低的成本,助力游戏厂商为游戏玩家提供更易用、更高质、更安全开放且多样化玩法的沉浸式语音环境

    图片

    通过持续打通语音技术和生态通路,为游戏开发者赋能。在提升玩家沉浸式语音体验方面,提供范围语音、空间音效等创新玩法,针对打机环境的瞬时噪音和手机功放时的远端回声问题,推出了云信自研的 3A 算法,包括 AI 降噪AI 回声消除等能力,确保玩家享受到高品质的游戏体验。

    另外,云信与 Wwise 引擎的深度融合则进一步优化游戏语音表现。针对游戏语音领域的多样化新趋势,通过对语音需求的深入需求,并将云信的即时通讯(IM)功能中的部分核心能力集成到了游戏语音,以增强游戏语音社交体验。

想要了解详情戳我戳我!或✉LTT936

语音 AI 也不再局限于最初专注于专业消费者和语音原生初创公司,而是开始满足企业需求。语音 AI 系统必须从根本上重新设计,以满足严格的实时交互标准,这些标准超过了传统异步应用程序的标准。由于实时对话无法编辑或重新生成,因此基础设施必须提供有保证的正常运行时间、完美的并发呼叫处理和不折不扣的可靠性。为了服务传统企业,升级了他们的平台,提供可定制的 SLA、峰值流量的动态扩展、强大的安全认证以及针对高度监管行业的自托管选项。这些功能在早期的语音 AI 产品中很少见,但随着技术的成熟,它们已成为标准。(该内容节选自公号,侵权删)

未来,无论游戏语音领域的需求和玩法如何演变,我们都将持续助力游戏厂商和独立开发者,满足更多创新玩法需求,并为玩家打造更加沉浸和震撼的音效体验。


http://www.ppmy.cn/server/157377.html

相关文章

机器学习之贝叶斯分类器和混淆矩阵可视化

贝叶斯分类器 目录 贝叶斯分类器1 贝叶斯分类器1.1 概念1.2算法理解1.3 算法导入1.4 函数 2 混淆矩阵可视化2.1 概念2.2 理解2.3 函数导入2.4 函数及参数2.5 绘制函数 3 实际预测3.1 数据及理解3.2 代码测试 1 贝叶斯分类器 1.1 概念 贝叶斯分类器是基于贝叶斯定理构建的分类…

码随想录算法训练营Day11 | LeetCode150. 逆波兰表达式求值,239. 滑动窗口最大值, 347.前 K 个高频元素

LeetCode150. 逆波兰表达式求值 题目链接/文章讲解/视频讲解:https://programmercarl.com/0150.%E9%80%86%E6%B3%A2%E5%85%B0%E8%A1%A8%E8%BE%BE%E5%BC%8F%E6%B1%82%E5%80%BC.html 后缀表达式无需写括号,而中缀表达式需要有括号 栈适用于相邻字符的消…

【数据结构】 树的遍历:先序、中序、后序和层序

在数据结构中,树(Tree)作为一种基础的非线性结构,广泛应用于多种场景。树的遍历是树操作中的重要组成部分,它决定了我们如何访问树中的每一个节点。树的遍历方法有多种,每种方法适用于不同的场景&#xff0…

【EI,Scopus检索 | 往届均已检索见刊】第四届智能系统、通信与计算机网络国际学术会议(ISCCN 2025)

重要信息: 大会官网:更多详情【论文投稿】 截稿时间:以官网信息为准 大会时间:2025年2月21-23日 接受/拒稿通知:投稿后3-5个工作日内 收录检索:EI,Scopus 出版信息: 本会议所有…

cursor试用出现:Too many free trial accounts used on this machine 的解决方法

文章精选推荐 1 JetBrains Ai assistant 编程工具让你的工作效率翻倍 2 Extra Icons:JetBrains IDE的图标增强神器 3 IDEA插件推荐-SequenceDiagram,自动生成时序图 4 BashSupport Pro 这个ides插件主要是用来干嘛的 ? 5 IDEA必装的插件&…

2025新年源码免费送

2025很开门很开门的源码免费传递。不需要馒头就能获取4套大开门源码。 听泉偷宝,又进来偷我源码啦👊👊👊。欢迎偷源码 🔥🔥🔥 获取免费源码以及更多源码,可以私信联系我 我们常常…

Github 2025-01-08 C开源项目日报 Top10

根据Github Trendings的统计,今日(2025-01-08统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量C项目10Shell项目1Redis - 内存数据库和数据结构服务器 创建周期:5411 天开发语言:C协议类型:BSD 3-Clause “New” or “Revised” License…

腾讯云大数据智能管家:AI驱动管理效能飞升

点击蓝字⬆ 关注我们 本文共计1241 预计阅读时长4分钟 在大数据时代,海量数据的产生给企业带来了新的机遇,也带来了复杂的管理挑战。如何高效利用数据资源、降低运维成本、提升系统性能成为每个企业的共同难题。腾讯云推出的大数据智能管家,以…