安卓手机搭建智能语音客服/通话播音/聊天播音乐技术实现

news/2024/11/17 9:41:20/

声明,此项技术需要root支持,如果因为刷机导致手机变砖或其他不可预料的后果请自行解决。

场景

我有一个朋友他是做业务的,主要还是做电销,其实电销相对于以前纪念没那么好做了(我自己觉得主要是互联网冲击,各个细分领域把对应的流量分走了,于是电销的转化效果就打了折扣,不过电销由于使用的真人发音,在在建立信任度方面,会比文字聊天或者机器人更加有优势)。

但是电销的成本确实也在不断提高,为了节约成本,大家都在想办法,比如我这个朋友他就准备用语音识别+真人录制的方式做客服,因为他的业务本来就很单一,客户问到的问题基本在他们的培训资料上都有标准回答,他们只需要按照这个标准回答回复即可,一方面他觉得枯燥乏味,另一方面,她希望能提高效率,摆脱这种困境。

针对这种场景,我觉得确实可以用自动化来做,而且能大大节约成本,他们希望能把原来的硬件设备能用上,比如手机,sim卡等。在经过认真思考后,我给出了我的低成本的技术架构。

通话替换语音技术

业务分析​

首先,他们的手机是小米6的手机,对于他们业务员来说,其实并没有要求用多好的手机,只要不卡,打电话够用就行。二米6在二手市场上大量的存货,价格基本也就是3,4百一台的样子。加上电话卡每个业务员的硬件成本并不高。主要的投入还是在庞大的业务人员薪资上。如果能够实现自动化,在一定程度上能节省至少一半的业务员的支出。

他问我,最近不是出了个ChatGpt吗,是不是可以用他来做人工客服,然后利用语音合成来做智能机器人。我给比较难,然后出了三点原因:

  1. ChatGpt投入比较大,目前垂直领域的公司用ChatGpt接入到现有系统的公司基本都是大公司,他们利用自己的语料库在原本的大模型上进行训练。而训练大模型需要大量的算例,头部公司的硬件投入就在几十上百万张v100。这对于一般小公司来讲不切实际。而如果仅仅是对于原有模型进行微调,需要用到的硬件成本也不会很低,包括训练工程师以及一个完整的团队。通常来讲,这样去做的都是本着做平台去做的。
  2. ChatGpt的大模型里面包含了众多的语料数据,试想一下,你的智能客服本来是推广产品的,但是和客户聊着聊着变成了瞎聊,完全和业务不沾边,这种情况肯定需要去规避,但是客户可不是经过专门训练的,他不知道应该问那些问题,如果要分割这个大模型,这里面需要做的微调可就多了,不是一时半会能搞定的事情。
  3. 前面说的是成本,在接入后,使用效果也未必能达到想要的效果。可能花了比业务员或者客服更多的钱,但是收效甚微,这就有点不划算。综合考虑,还是先用更容易施行的方案,等Gpt的服务成本下来后在考虑介入进去。

解决方案

那怎么做呢?我是这样架构的:客户通讯录放在后台,应用端请求通讯录数据到手机上,手机开始拨号,拨号出去后电话接通,通过检测接通的信号开始播放预先录制好的音频流。当客户说话的时候停止播放音频流,并将客户过来的额音频流推送到后台服务器进行识别处理,这种音频识别技术在国内已经相当成熟了,有配套的解决方案。转化成文字后,对文字进行关键词检索和匹配,匹配后利用关键词去匹配预先录制好的语料数据,将预料数据推送到客户的电话端。

这种情况下我们并不需要太多的语料,基本上只要将培训时用到的语料都覆盖,就可以解决7成以上的问题,但是由于我们并不是真人,因为也会遇到一些处理不了的情况,比如说客户的发言并没有识别到准确的关键词,或者触发了特定关键词:如人工客服,人工服务等。这个时候就需要业务员或者客服主动介入处理。

在这里插入图片描述

即是说,相对于全人工的情况,上面只有在触发需要人工的时候才会介入。但却又在一开始让客户认为是真人在听他们讲话而且不会对他们的发言做出消极回应。

实际上,我给他算了一下这套方案的成本,主要是这套程序的开发,而这里面最大的技术难点在于手机在接通电话时候接入音频并输送到对方,同时录制对方传过来的声音,以流的方式推送出去。而这套技术我们已经实现了。剩下来的就是做关键词的提取和匹配,以及语音识别等等。有一些系统甚至已经介入了人工合成语音的机器人,但是效果不太理想,我觉得介入这个结束后,转化率和效果会大大提高。


http://www.ppmy.cn/news/59143.html

相关文章

Contest3137 - 2022-2023-2 ACM集训队每月程序设计竞赛(1)五月月赛

A 1! 5! 46 169 有一种数字,我们称它为 纯真数。 它等于自身每一个数位的阶乘之和。请你求出不超过n的所有 纯真数。(注:纯真数不含有前导0)数据范围1e18 纯真数只有四个,注意0!1 1,2,145,40585 int n;cin>>n;int res[]{…

【Linux多线程编程-自学记录】06.向线程发送信号-sigaction

Linux多线程编程学习代码(代码已上传gitee,还请各位兄弟点个Star哦!) https://gitee.com/chenshao777/linux_thread.git 笔记: 1.线程信号处理: int sigaction(int signum, const struct sigaction *act, struct siga…

【LeetCode】343. 整数拆分

343. 整数拆分(中等) 方法一:数学推导 思路 将数字 n 拆分为若干个数字之和,即 n n1 n2 ... na ,本道题等价于求解 max(n1 * n2 * ... * na) ,根据数学推导,可以得到两个结论:…

存储资源调优技术——SmartDedupe智能数据重删、SmartCompression智能数据压缩技术

目录 SmartDedupe智能数据重删技术 SmartCompression智能数据压缩技术 SmartDedupe智能数据重删技术 基本概念 智能数据重删技术 是一种数据缩减技术,通过删除存储系统中的冗余数据块 减少数据占用的物理存储容量,节省存储空间(会降低性能&a…

高分屏电脑开发的winforms软件如何确保在低分屏显示正常

高分屏电脑通常我们会设置缩放比例, 比如我的开发电脑为4K屏, 设置的缩放比例为150%, 即每英寸显示点数DPI为144个, 这样Windows显示效果最好; 对于低分屏, 通常的缩放比例为100%, 即每英寸显示点DPI为96个. 我们在高分屏上设计winforms软件窗体布局, 不做特意处理, 将来软件运…

在CSDN逮到一个字节10年老测试开发,聊过之后收益良多···

老话说的好,这人呐,一单在某个领域鲜有敌手了,就会闲得蛋疼。前几天我在上班摸鱼刷CSDN的时候认识了一位字节测试开发大佬,在字节工作了10年,因为本人天赋比较高,平时工作也兢兢业业,现在企业内…

Link16相关知识

1. 概述 1.1 划分 时元 1天/112.5 24*60/112.5 12.8 (分钟) 时隙 时元/98304 12.8/98304 7.8125 ms 1帧 1536 时隙 12 s 1时元 64帧 98304时隙 12.8 分 时元:3组时隙(ABC): 332768 98304 时帧:3组时隙&…

哈希表题目:设计地铁系统

文章目录 题目标题和出处难度题目描述要求示例数据范围 解法思路和算法代码复杂度分析 题目 标题和出处 标题:设计地铁系统 出处:1396. 设计地铁系统 难度 6 级 题目描述 要求 一个地铁系统正在收集乘客在不同站之间的花费时间。他们在使用这些数…