声明,此项技术需要root支持,如果因为刷机导致手机变砖或其他不可预料的后果请自行解决。
场景
我有一个朋友他是做业务的,主要还是做电销,其实电销相对于以前纪念没那么好做了(我自己觉得主要是互联网冲击,各个细分领域把对应的流量分走了,于是电销的转化效果就打了折扣,不过电销由于使用的真人发音,在在建立信任度方面,会比文字聊天或者机器人更加有优势)。
但是电销的成本确实也在不断提高,为了节约成本,大家都在想办法,比如我这个朋友他就准备用语音识别+真人录制的方式做客服,因为他的业务本来就很单一,客户问到的问题基本在他们的培训资料上都有标准回答,他们只需要按照这个标准回答回复即可,一方面他觉得枯燥乏味,另一方面,她希望能提高效率,摆脱这种困境。
针对这种场景,我觉得确实可以用自动化来做,而且能大大节约成本,他们希望能把原来的硬件设备能用上,比如手机,sim卡等。在经过认真思考后,我给出了我的低成本的技术架构。
通话替换语音技术
业务分析
首先,他们的手机是小米6的手机,对于他们业务员来说,其实并没有要求用多好的手机,只要不卡,打电话够用就行。二米6在二手市场上大量的存货,价格基本也就是3,4百一台的样子。加上电话卡每个业务员的硬件成本并不高。主要的投入还是在庞大的业务人员薪资上。如果能够实现自动化,在一定程度上能节省至少一半的业务员的支出。
他问我,最近不是出了个ChatGpt吗,是不是可以用他来做人工客服,然后利用语音合成来做智能机器人。我给比较难,然后出了三点原因:
- ChatGpt投入比较大,目前垂直领域的公司用ChatGpt接入到现有系统的公司基本都是大公司,他们利用自己的语料库在原本的大模型上进行训练。而训练大模型需要大量的算例,头部公司的硬件投入就在几十上百万张v100。这对于一般小公司来讲不切实际。而如果仅仅是对于原有模型进行微调,需要用到的硬件成本也不会很低,包括训练工程师以及一个完整的团队。通常来讲,这样去做的都是本着做平台去做的。
- ChatGpt的大模型里面包含了众多的语料数据,试想一下,你的智能客服本来是推广产品的,但是和客户聊着聊着变成了瞎聊,完全和业务不沾边,这种情况肯定需要去规避,但是客户可不是经过专门训练的,他不知道应该问那些问题,如果要分割这个大模型,这里面需要做的微调可就多了,不是一时半会能搞定的事情。
- 前面说的是成本,在接入后,使用效果也未必能达到想要的效果。可能花了比业务员或者客服更多的钱,但是收效甚微,这就有点不划算。综合考虑,还是先用更容易施行的方案,等Gpt的服务成本下来后在考虑介入进去。
解决方案
那怎么做呢?我是这样架构的:客户通讯录放在后台,应用端请求通讯录数据到手机上,手机开始拨号,拨号出去后电话接通,通过检测接通的信号开始播放预先录制好的音频流。当客户说话的时候停止播放音频流,并将客户过来的额音频流推送到后台服务器进行识别处理,这种音频识别技术在国内已经相当成熟了,有配套的解决方案。转化成文字后,对文字进行关键词检索和匹配,匹配后利用关键词去匹配预先录制好的语料数据,将预料数据推送到客户的电话端。
这种情况下我们并不需要太多的语料,基本上只要将培训时用到的语料都覆盖,就可以解决7成以上的问题,但是由于我们并不是真人,因为也会遇到一些处理不了的情况,比如说客户的发言并没有识别到准确的关键词,或者触发了特定关键词:如人工客服,人工服务等。这个时候就需要业务员或者客服主动介入处理。
即是说,相对于全人工的情况,上面只有在触发需要人工的时候才会介入。但却又在一开始让客户认为是真人在听他们讲话而且不会对他们的发言做出消极回应。
实际上,我给他算了一下这套方案的成本,主要是这套程序的开发,而这里面最大的技术难点在于手机在接通电话时候接入音频并输送到对方,同时录制对方传过来的声音,以流的方式推送出去。而这套技术我们已经实现了。剩下来的就是做关键词的提取和匹配,以及语音识别等等。有一些系统甚至已经介入了人工合成语音的机器人,但是效果不太理想,我觉得介入这个结束后,转化率和效果会大大提高。