详解用大模型超拟人语音做桌面AI宠物/机器人的个性化能力

ops/2025/1/12 16:41:20/

前言

本文基于前面已经落地的CSK6大模型语音视觉开发板的配套示例功能来进行讲解,超拟人交互效果可以参考视频:

超拟人语音极速回复演示视频

目前聆思平台的超拟人模板实现了快速响应、声纹识别、知识库问答、兜底闲聊、超拟人TTS等功能,具体业务流程如下:

流程详解:

  • 用户发起交互后,会进行ASR语音转文字和声纹识别,当前声纹能力支持成年人男女、儿童男女四种身份识别,模型能基于不同身份分析提供不同的个性化回复。
  • 完成识别后,若产品有配置知识库,会优先基于知识库问题匹配阈值,大于阈值则优先基于知识库内容问答,小于阈值再进入意图分类。
  • 模板提供了落域、改写、拆解模型,进行意图处理,意图分类后将进入对应流程。
  • 如用户意图属于天气、计算器、日期查询等AIUI技能,则会落域到AIUI链路,进行技能回复。
  • 如用户意图属于闲聊、开放性问答、搜索意图,则会进入大模型调用链路。最后通过一系列系统决策,进行超拟人合成。

功能详解和应用场景

一、极速响应

对比前一代大模型语言交互,深度优化音频生成速度,实现毫秒级响应;融合升级后的端侧降噪算法,处理端侧音频速度提升7倍以上;语音最快回复<1秒,能明显提升大模型语音硬件产品的交互体验。

二、超拟人TTS

采用超拟人发音,大幅提升合成音频中的情绪表达能力,音色更自然、情感丰富、语调灵动,告别“播音腔,提供多个音色选择,可用于陪伴型机器人、玩具等产品。

对比维度

超拟人语音合成

传统 TTS

自然度与拟人度

接近真人语音

生硬,无变化和细节

情感表达

声音更具感染力和亲和力

单调、机械

语言处理能力

能更准确地分析和理解文本信息

对复杂语言现象处理更精准

会出现声调不准、韵律异常等问题

应用场景

给AI语音助手、有声阅读、陪伴机器人、智能服务等提供自然情感化交互的体验

简单语音播报、信息提示等

三、声纹识别

通过声音特征区分儿童(男、女)、成人(男、女),在实际的应用场景中,可以通过声音分辨成员类别,实现个性化服务,如内容推荐、权限管理等。

可以根据儿童的声音做出不同的反应。比如,一个智能玩偶,它能够区分男孩和女孩的声音,当听到女孩温柔的声音时,它可以用比较柔和的语气回应,讲述公主之类的故事;当听到男孩充满活力的声音时,它可以提供冒险、超级英雄之类的互动内容。同时,智能玩具还可以设置权限,防止儿童误操作。

智能语音助手产品

可以根据不同年龄段和性别的用户声音,提供符合其性别和年龄阶段可能关注的内容,例如面对儿童语音助手可以用更简单易懂的语言、活泼的语气回答问题。面对成年男性提供体育赛事信息,为成年女性提供时尚资讯,以及针对不同身份提供不同的闲聊内容等。

四、知识库问答

厨房场景

结合产品功能后,除了可以可以根据用户语音指令提供精准的菜谱推荐,也可以指导操作步骤、用法用量等,让产品使用变得更加轻松和专业,即使是新用户也能快速上手做出美味佳肴。

家居电器

根据不同的场景和类型,语音推荐合适的用品,并指导用户正确使用,确保方便上手的同时避免不当操作带来的损害。当设备出现故障时,通过语音交互快速诊断问题并提供解决方案,减少维修等待时间。

宠物场景

宠物饲养过程中遇到的问题,如宠物饮食、健康护理、行为训练等方面的知识,获取专业的解答和建议,确保宠物得到科学的照顾。并可以根据宠物的具体情况,语音推荐合适的宠物用品,如食品、玩具、药品等,并提供购买建议和使用说明。

音乐娱乐场景

用户可以通过语音指令让音箱播放特定的歌曲、歌手或音乐风格的曲目,能精准理解用户需求并快速搜索播放资源,同时还能根据用户定义的音乐偏好进行个性化推荐,介绍歌曲的背景、歌手的相关信息等

学习场景

通过知识库功能快速定制个性化的学习计划和内容推荐,如推荐适合的课外读物、学习游戏或在线课程等,针对不同情况帮助孩子更高效地学习。

五、兜底闲聊

针对语音交互场景提供的闲聊技能,可以在没有合适回复内容的时候承接用户的问答,提升用户体验。

结语

以上即为当前大模型超拟人方案的个性化功能讲解,如有更多落地需求和问题可以留言,合适的需求我们会放入后续版本迭代实现

演示视频中使用的CSK6大模型语音开发板硬件设计和SDK可以直接下载,有想做详细了解的可以参考这个文档:https://docs2.listenai.com/x/nTn9kMMCU


http://www.ppmy.cn/ops/149500.html

相关文章

linux开发的一些问题

1.linux由于目前的开发环境问题,是在10.00.00.213上完成编译,在10.00.00.52上启动和调试xds,它们之间的文件互传可以使用xftp 2.在10.00.00.213编译的时候,首先需要设置环境变量,然后也需要及时更新对应的代码. 编辑10.00.00.213上的linux时,使用的时mobaXterm,启动时要设置自定…

为AI聊天工具添加一个知识系统 之26 资源存储库和资源管理器

本文要点 资源存储库 为了能完成本项目(“为AI聊天工具增加一个知识系统”,其核心能力是“语言处理” ,该能力的最大挑战 当仁不让的应该是自然语言处理)的设计,我们考虑一个问题:在自然语言处理中&#…

《Spring Framework实战》13:4.1.4.4.延迟初始化Bean

欢迎观看《Spring Framework实战》视频教程 延迟初始化Bean 默认情况下,ApplicationContext实现在初始化过程中急切地创建和配置所有单例bean。通常,这种预实例化是可取的,因为配置或周围环境中的错误会立即被发现,而不是在几小时…

Docker Desktop 构建java8基础镜像jdk安装配置失效解决

Docker Desktop 构建java8基础镜像jdk安装配置失效解决 文章目录 1.问题2.解决方法3.总结 1.问题 之前的好几篇文章中分享了在Linux(centOs上)和windows10上使用docker和docker Desktop环境构建java8的最小jre基础镜像,前几天我使用Docker Desktop环境重新构建了一个…

关于ReLU激活函数的解释以及其在神经网络中的应用

ReLU(Rectified Linear Unit,修正线性单元)是一种常用的激活函数,广泛应用于神经网络中,特别是深度学习中。它的定义非常简单且直观。ReLU的公式如下: f(x)max⁡(0,x)f(x) \max(0, x) 这意味着&#xff…

MySQL 子查询(重在练习)

第九章: 子查询 1.子查询的需求分析和问题解决 1.1基本使用 子查询(内查询)在主查询之前一次执行完成 子查询的结果被主查询(外查询)调用 注意事项 子查询要包含在括号内 将子查询放在比较条件的右侧 单行操作符对应单行子查询,多行操作符对应多行子查询 1.2子查询的分类…

SQL进阶实战技巧:如何计算RFM模型?

目录 1RFM模型计算方法 2 数据准备 3 问题分析 第一步:计算Recency 第二步:计算Frequency 第

【机器学习:七、分类问题】

机器学习中的分类问题 分类问题简介 分类问题是机器学习中的核心任务之一,其目标是根据输入数据预测其所属的类别。通过分类算法,计算机可以自动学习输入特征与标签之间的关系,并将未知数据分类到特定的类别中。分类问题广泛应用于文本分类…