详解用大模型超拟人语音做桌面AI宠物/机器人的个性化能力

embedded/2025/1/14 19:07:57/

前言

本文基于前面已经落地的CSK6大模型语音视觉开发板的配套示例功能来进行讲解,超拟人交互效果可以参考视频:

超拟人语音极速回复演示视频

目前聆思平台的超拟人模板实现了快速响应、声纹识别、知识库问答、兜底闲聊、超拟人TTS等功能,具体业务流程如下:

流程详解:

  • 用户发起交互后,会进行ASR语音转文字和声纹识别,当前声纹能力支持成年人男女、儿童男女四种身份识别,模型能基于不同身份分析提供不同的个性化回复。
  • 完成识别后,若产品有配置知识库,会优先基于知识库问题匹配阈值,大于阈值则优先基于知识库内容问答,小于阈值再进入意图分类。
  • 模板提供了落域、改写、拆解模型,进行意图处理,意图分类后将进入对应流程。
  • 如用户意图属于天气、计算器、日期查询等AIUI技能,则会落域到AIUI链路,进行技能回复。
  • 如用户意图属于闲聊、开放性问答、搜索意图,则会进入大模型调用链路。最后通过一系列系统决策,进行超拟人合成。

功能详解和应用场景

一、极速响应

对比前一代大模型语言交互,深度优化音频生成速度,实现毫秒级响应;融合升级后的端侧降噪算法,处理端侧音频速度提升7倍以上;语音最快回复<1秒,能明显提升大模型语音硬件产品的交互体验。

二、超拟人TTS

采用超拟人发音,大幅提升合成音频中的情绪表达能力,音色更自然、情感丰富、语调灵动,告别“播音腔,提供多个音色选择,可用于陪伴型机器人、玩具等产品。

对比维度

超拟人语音合成

传统 TTS

自然度与拟人度

接近真人语音

生硬,无变化和细节

情感表达

声音更具感染力和亲和力

单调、机械

语言处理能力

能更准确地分析和理解文本信息

对复杂语言现象处理更精准

会出现声调不准、韵律异常等问题

应用场景

给AI语音助手、有声阅读、陪伴机器人、智能服务等提供自然情感化交互的体验

简单语音播报、信息提示等

三、声纹识别

通过声音特征区分儿童(男、女)、成人(男、女),在实际的应用场景中,可以通过声音分辨成员类别,实现个性化服务,如内容推荐、权限管理等。

可以根据儿童的声音做出不同的反应。比如,一个智能玩偶,它能够区分男孩和女孩的声音,当听到女孩温柔的声音时,它可以用比较柔和的语气回应,讲述公主之类的故事;当听到男孩充满活力的声音时,它可以提供冒险、超级英雄之类的互动内容。同时,智能玩具还可以设置权限,防止儿童误操作。

智能语音助手产品

可以根据不同年龄段和性别的用户声音,提供符合其性别和年龄阶段可能关注的内容,例如面对儿童语音助手可以用更简单易懂的语言、活泼的语气回答问题。面对成年男性提供体育赛事信息,为成年女性提供时尚资讯,以及针对不同身份提供不同的闲聊内容等。

四、知识库问答

厨房场景

结合产品功能后,除了可以可以根据用户语音指令提供精准的菜谱推荐,也可以指导操作步骤、用法用量等,让产品使用变得更加轻松和专业,即使是新用户也能快速上手做出美味佳肴。

家居电器

根据不同的场景和类型,语音推荐合适的用品,并指导用户正确使用,确保方便上手的同时避免不当操作带来的损害。当设备出现故障时,通过语音交互快速诊断问题并提供解决方案,减少维修等待时间。

宠物场景

宠物饲养过程中遇到的问题,如宠物饮食、健康护理、行为训练等方面的知识,获取专业的解答和建议,确保宠物得到科学的照顾。并可以根据宠物的具体情况,语音推荐合适的宠物用品,如食品、玩具、药品等,并提供购买建议和使用说明。

音乐娱乐场景

用户可以通过语音指令让音箱播放特定的歌曲、歌手或音乐风格的曲目,能精准理解用户需求并快速搜索播放资源,同时还能根据用户定义的音乐偏好进行个性化推荐,介绍歌曲的背景、歌手的相关信息等

学习场景

通过知识库功能快速定制个性化的学习计划和内容推荐,如推荐适合的课外读物、学习游戏或在线课程等,针对不同情况帮助孩子更高效地学习。

五、兜底闲聊

针对语音交互场景提供的闲聊技能,可以在没有合适回复内容的时候承接用户的问答,提升用户体验。

结语

以上即为当前大模型超拟人方案的个性化功能讲解,如有更多落地需求和问题可以留言,合适的需求我们会放入后续版本迭代实现

演示视频中使用的CSK6大模型语音开发板硬件设计和SDK可以直接下载,有想做详细了解的可以参考这个文档:https://docs2.listenai.com/x/nTn9kMMCU


http://www.ppmy.cn/embedded/153911.html

相关文章

Open FPV VTX开源之默认MAVLink设置

Open FPV VTX开源之默认MAVLink设置 1. 源由2. 准备3. 连接4. 安装5. 配置6. 测试6.1 启动wfb-ng服务6.2 启动wfb-ng监测6.3 启动QGroundControl6.4 观察测试结果 7. 总结8. 参考资料9. 补充9.1 telemetry_tx异常9.2 DEBUG串口部分乱码9.3 PixelPilot软件问题 1. 源由 飞控图传…

机器学习算法(一): 基于逻辑回归的分类预测

1 逻辑回归的介绍和应用 1.1 逻辑回归的介绍 逻辑回归(Logistic regression,简称LR)虽然其中带有"回归"两个字,但逻辑回归其实是一个分类模型,并且广泛应用于各个领域之中。虽然现在深度学习相对于这些传统…

可以进行重复测量的方差分析的AI agent

可以进行重复测量的方差分析的AI agent 前几天做了机器学习的AI agent,把一个糖尿病机器学习模型采用API的形式接入到LLM模型中,结合LLM的智能性和机器学习模型的准确性,利用两者的有点,有可以避免两者的缺点,是一条合…

Effective Objective-C 第一章阅读笔记

Effective Objective-C 第一章阅读笔记 文章目录 Effective Objective-C 第一章阅读笔记OC的语言起源内存管理小结 在类的头文件中尽量少引入其他头文件小结 多用字面量语法多用类型变量,少用#define预处理指令小结 枚举表示状态,选项,状态码…

CES Asia 2025:VR/AR/XR引领科技新潮流

在全球科技领域蓬勃发展的大背景下,CES Asia 2025(赛逸展)即将在京盛大开幕,VR/AR/XR技术作为前沿科技的代表,将在本次展会上大放异彩,展现出令人瞩目的发展趋势和巨大潜力,同时政策优势也将为其…

Spring底层核心原理解析

​ 本次分享会把Spring中核心知识点都给大家进行串讲,让大家对Spring的底层有一个整体的大致了解,比如: Bean的生命周期底层原理依赖注入底层原理初始化底层原理推断构造方法底层原理AOP底层原理Spring事务底层原理 但都只是大致流程&#…

docker简单使用

进入和退出docker linux命令 docker ps -a 查询已经创建的容器,包括正在运行的和已停止的容器docker start id-name 启动容器docker exec -it id-name /bin/bash 进入容器docker stop id-name 停止容器

说一说mongodb组合索引的匹配规则

一、背景 有一张1000多万条记录的大表,需要做归档至历史表,出现了大量慢查询。 查询条件是 "classroomId": {$in: ["xxx", "xxx", ..... "xxx","xxx", "xxx" ] }耗时近5秒,且…