深度学习技术的出现极大地提高了ASR系统的性能,但在高噪声环境下,特别是在资源受限或无法使用多通道麦克风阵列的场景下,如使用单通道SE前端的ASR性能提升仍面临较大挑战。这主要是由于单通道SE前端的非线性处理引入的处理失真。
1、语音识别性能提高的关键步骤
1.问题识别:首先识别出在噪声环境下,单通道语音增强(SE)系统引入的处理失真,尤其是伪影误差,是导致ASR性能下降的主要原因。
2.误差分解:利用正交投影分解(OPD)将SE误差分解为干扰误差、噪声误差和伪影误差三种类型,以便于单独评估每种误差对ASR性能的影响。
3.直接缩放分析(DSA):通过DSA方案,手动修改分解后的误差比例,直接评估不同误差类型对ASR性能的具体影响,从而确定了伪影误差对ASR性能的特别有害影响。
4.观察添加(OA)后处理:一种简单的OA后处理技术,通过在增强信号和原始噪声信号之间进行插值,减少伪影误差的比例,同时适度增加噪声误差的比例。
5.伪影增强的信噪比(AB-SDR)训练目标:一种新的训练目标AB-SDR,它通过在训练过程中增加伪影误差的权重,迫使模型生成更少伪影误差的增强信号。
6.实验验证:通过一系列实验,验证了OA后处理和AB-SDR训练目标都能有效地减少伪影误差,并在单通道SE前端中显著提高ASR性能。
7.多场景评估:在不同的数据集、不同的声学环境、使用不同的SE和ASR系统配置下进行了广泛的评估,证明了这些方法不仅在模拟数据上有效,也能提升真实录音中的ASR性能。
2、实际应用场景及方向
1.改善噪声环境下的ASR性能:通过识别和减少单通道语音增强(SE)中的伪影误差,可以显著提高ASR系统在嘈杂环境下的性能。这对于实际应用中常见的噪声环境具有重要意义。
2.指导SE算法的改进:分析方法和减少伪影误差的策略为SE算法的设计者提供了改进现有算法和开发新算法的理论基础和实践指导。
3.推动ASR系统的可部署性:通过提高SE前端的性能,可以使ASR系统更加鲁棒,更容易部署在各种设备和环境中,包括那些没有昂贵麦克风阵列的设备。
4.促进端到端ASR模型的发展:通过减少SE处理中的伪影误差,可以提高端到端ASR模型的性能,这些模型直接从原始语音信号到识别结果,无需传统的SE步骤。
5.提高ASR系统的用户满意度:在高噪声环境下提供更准确的ASR性能可以显著提升用户的体验和满意度,尤其是在移动设备、车载系统和智能家居等消费电子产品中。
备注:伪影误差
伪影误差(Artifact Errors)是在语音信号处理中产生的一种非自然信号误差,它通常由语音增强(Speech Enhancement, SE)算法的非线性处理引入。在单通道语音增强系统中,由于只能使用一个麦克风捕获信号,算法必须对混合的语音和噪声信号进行分离,这个过程中可能会产生一些不希望的副作用,即伪影误差。