人工智能增强的音频和聊天协作服务

ops/2024/12/21 1:52:51/

论文标题:AI-enabled Audio and Chat Collaboration Services

中文标题:人工智能增强的音频和聊天协作服务

作者信息:

  • Emil P. Andersen, Norwegian Defence Research Establishment (FFI), Kjeller, Norway
  • Jesper R. Goksør, Sindre E. Halleraker, Ole P. Myhre, Tobias S. Omdal, Herman H. Seternes, Leander S. Thorstad, Norwegian University of Science and Technology (NTNU), Trondheim, Norway
  • Frank T. Johnsen, Simen Kvalø, Norwegian Defence Research Establishment (FFI), Kjeller, Norway

论文出处:MILCOM 2024 - 2024 IEEE Military Communications Conference (MILCOM)


摘要
本文研究了一种改善战术边缘使用的音频服务的方法,这些服务适用于网络环境被描述为断开、间歇和有限(DIL)的情况。研究者们考虑使用较新的人工智能语音识别系统,即Vosk和OpenAI的Whisper,为服务带来转录功能。将语音音频转换为文本将减轻网络的负担,这在DIL环境中是一个重要的考虑因素。为了展示改善音频服务的方法,研究者们引入了一个语音转文本(STT)应用程序,该程序实现了Vosk和Whisper作为转录模块。应用程序构建在包含转录、消息传递和VoIP的技术栈上。除了具有STT功能外,还实现了反向功能:文本转语音模块,将文本消息转换回音频供接收者收听。论文讨论了应用程序的设计和架构,详细说明了如何使用一套技术构建技术栈,这些技术有利于在DIL网络中使用的音频服务。应用程序需要在资源稀缺的战术边缘工作,因此评估了实现的转录器的资源使用情况。最后,研究了两种转录器的准确性,以评估它们提供的服务质量。

引言
北约IST-201研究任务组专注于在DIL环境中支持服务的互操作性及其对将来联合任务网络(FMN)的潜在影响。IST-201特别关注通信和协作服务,旨在改善北约任务中多国合作的战术层面。本文讨论了人工智能(AI)如何用于改善音频服务,改善包括三个方面:首先,使用AI进行音频处理可以获得STT功能,便于与基于文本的即时消息服务集成;其次,结合基于文本的聊天和生成性AI,可以获得文本到语音(TTS)功能,允许文本消息被朗读给接收者;第三,传输文本而非音频需要更少的数据,显著减轻网络负载。本文讨论了一个实际的设计和实现,该实现已作为开源发布,以惠及研究社区。

相关工作
IST-201的目标是研究改善和支持DIL环境中协作服务的方法。该组的第一篇论文[4]专注于实验基于AI的音频编解码器,以改善战术边缘的音频服务质量(QoS)。实验表明,谷歌开发的基于AI的音频编解码器Lyra[5]与目前北约低数据速率通信中使用的标准化编解码器表现相似。这些实验在理想条件下进行,并进行了客观测试。为了更好地理解基于AI的音频编解码器(如谷歌Lyra)的好处,可能需要在更现实的网络环境中进行实验,并进行主观测试。IST-176组专注于将物联网(IoT)应用于使用标准化技术连接武装力量[6]。IST-150组则致力于提供战术级别服务的建议,他们确定发布/订阅协议MQTT是战术联合系统中交换信息的合适选择[7]。本文扩展了如何使用MQTT作为音频服务间数据交换的方法。

技术
应用程序的技术栈由三个部分组成:转录、消息传递和VoIP,大部分使用Python构建,部分使用C++。设计围绕几个基础组件:首先是Linphone音频软件用于VoIP,因为它已经在IST201的第一轮实验中使用过,其中评估了编解码器[4]。其次是MQTT作为发布/订阅组件,实现消息传递并将软件跨网络集成。剩余的软件实现列表见表I。大多数代码用Python编写,Linphone Python库用C++编写。

系统架构
为了提供应用程序架构的概览,使用了4+1架构视图模型。这个模型包括逻辑视图、过程视图、开发视图和物理视图。

 

 

测试
测试部分包括STT性能测试、功能测试、资源测试和准确性测试。STT性能测试比较了Vosk和Whisper两个STT组件的准确性、错误率和速度。功能测试验证了应用程序的各项功能和非功能需求。资源测试旨在找到应用程序在有限环境下运行所需的最小资源量。准确性测试评估了Linphone集成与转录器的协同工作情况。网络影响测试展示了通过STT技术,可以将原始音频的数据负载从每秒千比特减少到每秒比特的范围,显著释放网络带宽。

结论和未来工作
本文研究了在DIL环境中使用生成性AI支持协作音频服务的方法。研究了三种改善音频服务的方式:使用Vosk和Whisper自动语音识别系统实现音频服务的STT功能;提供TTS功能,允许转发的文本被朗读给接收者;发送文本消息减少了网络负载。Vosk和Whisper在测试中均显示出有希望的结果。在资源使用方面,Vosk比Whisper表现更好,但应考虑对不同语言的支持。两种自动语音识别系统均显示出良好的准确性,表明它们与Linphone音频软件集成良好。通过IST-201,目标是继续实验,以改善战术边缘的协作服务,包括音频服务。本文开发的应用程序满足了许多推进这项工作所需的功能和非功能需求。


http://www.ppmy.cn/ops/143629.html

相关文章

在 Ubuntu 上部署 Terraform 管理平台:实现云基础设施的集中管理

简介 Terraform 是一款开源基础架构自动化工具,可让您通过命令行界面部署和管理数百台服务器。使用 Terraform,你可以通过在一个人类可读的文件中定义配置来构建、更改和管理你的基础架构。它支持许多云提供商,如 AWS、Azure、GCP 和阿里巴巴…

云计算HCIP-OpenStack04

书接上回: 云计算HCIP-OpenStack03-CSDN博客 12.Nova计算管理 Nova作为OpenStack的核心服务,最重要的功能就是提供对于计算资源的管理。 计算资源的管理就包含了已封装的资源和未封装的资源。已封装的资源就包含了虚拟机、容器。未封装的资源就是物理机提…

“TA”说|表数据备份还原:SQLark 百灵连接助力项目部署验收

💬 南飞雁|应用开发工程师 有些重要项目的部署验收,会在生产环境完成,验收完成后,又需要把这部分数据清空。这时就需要对数据表进行备份和还原,虽然可以通过命令直接实现,但是有一些操作门槛&am…

RPC远程服务调用详解和gRPC简介

RPC (Remote Procedure Call)是远程过程调用,比如说现在有两台服务器A, B,一个在A服务器上的应用想要调用B服务器上的应用提供的某个,由于不在两个方法不在一个内存空间,不能直接调用,需要通过网络表达调用的语义和传达…

力扣第109题:将排序链表转换为二叉搜索树

力扣第109题:将排序链表转换为二叉搜索树 题目描述 给定一个单链表,其中的元素已经按升序排列,要求将其转换为一个高度平衡的二叉搜索树。 高度平衡二叉搜索树:一个二叉搜索树,其中每个节点的左右子树的高度差的绝对…

34.在 Vue 3 中使用 OpenLayers 上传 GeoJSON 文件并显示地图数据

目录 1. 什么是 GeoJSON 文件 GeoJSON 的基本结构 GeoJSON 常见几何类型 2. 为什么选择 OpenLayers 与 GeoJSON OpenLayers 的优势 3. 在 Vue 3 中集成 OpenLayers 安装 OpenLayers 创建 Vue 组件并初始化地图 4. 上传并解析 GeoJSON 文件 5. 样式定制与地图展示 6. …

数据库中常见的聚合函数

目录 一、聚合函数是什么 二、常见的聚合函数 1、SUM() 2、AVG() 3、MAX() 4、MIN() 5、COUNT() 6、GROUP_CONCAT() / STRING_AGG() 7、STDDEV() / STDDEV_SAMP() 8、VAR_POP() / VARIANCE() 三、聚合函数的作用 1、数据汇总: 2、统计分析: 3、数据分组: 四、聚合…

centos常用操作命令

查询端口,并关闭进程 1.查看所有端口: netstat -lnpt 2.杀死该进程: kill -9 pid(-9 强制杀死该进程 pid上一步查询出来的端口对应的pid) 3.查看该进程是否被杀死(是否被占用):…