基于Python的智能语音识别系统设计

引言

语言是人类最原始直接的一种交流方式，通俗易懂、便于理解。随着科技的发展，语言交流不再只存在于人与人之间，如何让机器“听懂”人类的语言并做出反应成为人工智能的重要课题，语音智能交互技术应运而生。作为其中重要一环的语音识别技术近年来不断发展，走出了实验室，随着人工智能进入人们的日常生活中。当今市场上语音识别技术相关的软件、商品涉及人类生活的方方面面，语音识别的实用性已经得到充分的印证。如今语音识别技术已经成为人类社会智能化的关键一步，能够极大提高人们生活的便捷度。

近年随着互联网的快速兴起和飞速发展，人们的生活也日新月异，高科技的进步伴随着种种问题同时也给人们和社会带来了切实的便捷与利处。各种各样随着计算机发展而贴近人们生活的好用软件出现，随着技术的发展进步，多种多样让人眼花缭乱的功能一一呈现在大众眼前。在这样一个时代，语音识别系统也在各种各样的领域中与人们相伴为人们服务，小到手机中的语音翻译功能，大到智能家居领域中的语音命令功能。在人工智能领域中，语音识别技术已经成为其中不可或缺的一部分，而且渐渐成为AI智能产品中非常重要的环节。

随着科学技术的进步，智能语音识别技术也在不断发展着。从20世纪50年代Audrey被开发出来，到70年代，隐马尔科夫模型（HMM）在语音识别技术中得到应用，但此后的语音识别技术发展并没有脱离HMM框架。而在2011年，国内的科大讯飞第一次将深度神经网络（DNN）技术运用到语音云平台中，与传统的HMM产生了碰撞。

通过在网络上查阅相关资料，阅读相关文献，进一步学习到了相关知识，对设计智能语音识别系统打好了牢固的地基，提供了科学系统的知识，从盲目毫无章法的进行到有规划有目标的进行。对HMM，DNN等技术参考相关的设计思路和实现方法进行了细致的研究。

关键词 智能语音识别；HMM；DNN

正文

早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它就能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末，伦敦学院（Colledge of London）的Denes已经将语法概率加入语音识别中。

1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码技术（LPC）及动态时间规整技术（DTW）。而语音识别技术的最重大突破是70 年代隐含马尔科夫模型（HMM）的应用。从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后HMM技术的应用一直占据语音识别系统的主流地位。

目前智能语音识别系统面临着环境中的噪声干扰问题、方言识别问题以及容错率问题的挑战。而DNN等新技术的应用是否能相对于传统的HMM框架的语音识别系统更加优秀则需要更多的探索与研究。

通过检索关键词“智能语音识别”查阅相关资料和老师沟通后，从由房爱东作为第一作者发表的《基于人工智能的语音识别系统及应用研究》中学习到了智能语音识别系统的设计思路与流程。从由孙可作为第一作者发表的《基于Python的深度学习语音识别》中学习到了语音识别系统的DNN技术。在对人工神经网络（ANN）的研究中，深度学习的概念被提出，计算机是否也能模拟人脑中的神经元进行学习，人工神经网络就成为模拟动物神经网络特征的数学模型，2006年深度学习教父Hinton等人提出深度置信网络（DBN）。在DNN运用于图片识别后并取得成功后，逐渐被研究人员运用于语音识别等领域。从杨毯毯发表的《基于HMM与改进的神经网络语音识别》中学习到了语音识别系统中的HMM技术，该技术是一个双重随机的数理统计处理过程，基本上无法观察其所处的具体状态，但是矢量序列却表征着其相关特征。每一观察矢量都借助于其相应的概率密度函数的分布状况来反映其各个状态，此外，每个观察矢量又是由相应概率密度分布的状态序列产生。与此同时，语音信号的特性恰巧与之相吻合，因此可以运用HMM来刻画语音信号的特征。

总结

根据上述文献的相关学习，了解到对智能语音识别系统性能和结构的研究一直是热点，该技术也不断成为人们生活的一部分。目前智能语音识别系统依然面临着环境中的噪声干扰问题、方言识别问题以及容错率问题的挑战。在智能语音识别系统的设计上，可以利用DNN技术对传统的HMM框架进行改进或建立更好的全新框架，能有效提高语音识别系统的效率和性能，以及改善其方言识别能力以及容错率的处理能力。语音识别系统的发展已经从GMM-HMM到DNN-HMM，再到其现在以CTC，RNN-T等技术为代表的端到端技术。语音识别中的特征提取是其中的重要步骤，通过与MFCC、FBank、LPC等特征提取技术结合以提升语音识别系统的性能，进一步解决语音识别系统中存在的问题。

参考文献

[1]范宝荣,薛金珍,张天航.语音识别技术综述[J].数码世界,2019(02):49.

[2]郝欧亚,吴璇,刘荣凯.智能语音识别技术的发展现状与应用前景[J].电声技术,2020,44(03):24-26.DOI:10.16311/j.audioe.2020.03.007.

[3]房爱东,张志伟,崔琳,谢士春.基于人工智能的语音识别系统及应用研究[J].宿州学院学报,2019,34(08):62-65.

[4]孙可,刘忠武,吴雨洽,郭东旭.基于Python的深度学习语音识别[J].沈阳师范大学学报(自然科学版),2019,37(03):274-277.

[5]李姝仪,李云洁,蒋昊轩,郭宗昱,吴可欣,刘博.语音识别实现方法[J].科技风,2021,No.475(35):69-71.DOI:10.19392/j.cnki.1671-7341.202135021.

[6]杨毯毯. 基于HMM与改进的神经网络语音识别[D].山东科技大学,2019.DOI:10.27275/d.cnki.gsdku.2019.001094.

[7]林坤辉,息晓静,周昌乐.基于HMM与神经网络的声学模型研究[J].厦门大学学报(自然科学版),2006(01):44-46.

[8]贾嘉敏,程振,潘文林,王欣.基于DNN-HMM的佤语语音声学建模[J].计算机时代,2022,No.362(08):61-64+68.DOI:10.16644/j.cnki.cn33-1094/tp.2022.08.014.

[9]林坤辉,息晓静,周昌乐.基于HMM与神经网络的声学模型研究[J].厦门大学学报(自然科学版),2006(01):44-46.

[10]王奇. 基于深度学习的中文语音识别系统的研究[D].沈阳工业大学,2022.DOI:10.27322/d.cnki.gsgyu.2022.000669.

[11]顾亚文.人工智能深度学习背景下语音识别方法研究[J].软件,2022,43(05):122-124.

[12]房敏.基于HMM的语音识别技术[J].计算机产品与流通,2018(03):91.

[13]Aldarmaki Hanan,Ullah Asad,Ram Sreepratha,Zaki Nazar. Unsupervised Automatic Speech Recognition: A review[J]. Speech Communication,2022(prepublish).

[14]Trabelsi Asma,Warichet Sébastien,Aajaoun Yassine,Soussilane Séverine. Evaluation of the efficiency of state-of-the-art Speech Recognition engines[J]. Procedia Computer Science,2022,207.

[15]Gupta Shrurti,Shabeeb Kashif,Singh Sonika,Sharma Sandeep. Adaptive HMM based Speech Recognition to Recognize Multi-lingual Sentence[J]. International Journal of Computer Applications,2015,115(7).

基于Python的智能语音识别系统设计

相关文章

如何理解自然语言处理中的位置编码（Positional Encoding）

Php 通过 FFmpeg 获取远程视频的时长和截图

easyexcel解析excel文件原理解析

gitlab关联新仓库

免费开源线上社交交友婚恋系统平台可打包小程序支持二开源码交付！

【window环境、Linux环境、QT三种方法实现TCP通信】

OpenTelemetry-2.Go接入Jaeger（grpc，gin-http）

2024最新的，免费的 ChatGPT 网站AI（八个）