Deep4SNet:用于虚假语音分类的深度学习
摘要:
虚假语音是指即使通过人工智能或信号处理技术产生的语音记录。生成虚假录音的方法有"深度语音"和"模仿"。在《深沉的声音》中,录音听起来有点合成,而在《模仿》中,录音听起来很自然。另一方面,考虑到在互联网上传输的大量语音记录,检测虚假内容的任务并不微不足道。
为了检测通过深度语音和模仿获得的虚假语音,我们 提出了一种基于卷积神经网络( Convolutional Neural Network,CNN )的解决方案,使用图像增强和Dropout。所提出的架构使用2092个原始和虚假语音记录的直方图进行训练,并使用864个直方图进行交叉验证。使用476个新直方图进行外部验证,并计算准确率( Precision,P )和召回率( Recall,R )。对模仿型探究录音的 检测达到了P = 0.997,R = 0.997,对Deep Voice-based录音的检测达到了P = 0.985,R = 0.944。全局精度为0.985。根据结果,所提出的系统在检测虚假语音内容方面是成功的。
结论:
- Deep4SNet在检测模仿和Deep Voice生成的伪造语音方面表现出色,整体准确率达到0.985。
- 通过对比手工特征和自动特征提取方法,论文发现自动特征提取(使用直方图图像)更适合于伪造语音检测任务。
- 通过图像增强和dropout技术,模型在防止过拟合方面表现出良好的鲁棒性。
背景 :
- 伪造语音问题 :随着人工智能和信号处理技术的发展,伪造语音变得越来越逼真。伪造语音可能用于欺骗、误导或作为虚假证据,尤其是在法律领域,因此检测伪造语音具有重要意义。
- 现有方法:传统的语音验证方法主要依赖于高斯混合模型(GMM)和通用背景模型(UBM)。近年来,基于遗传算法(GA)、蚁群优化(ACO)、支持向量机(SVM)和深度学习(DL)的方法也被提出用于语音验证和伪造语音检测。
内容成果 :
- 研究方法
论文提出了一种基于卷积神经网络(CNN)的伪造语音检测模型,称为Deep4SNet。该模型使用图像增强和dropout技术来提高检测性能。
模型训练使用了2092个直方图,这些直方图来自原始语音和伪造语音录音。此外,还使用了864个直方图进行交叉验证,以及476个新的直方图用于外部验证。
论文比较了手工特征提取和自动特征提取两种方法。手工特征提取依赖于统计值和熵等特征,而自动特征提取则通过将语音信号转换为直方图图像来实现,将问题转化为计算机视觉问题。
Deep4SNet的网络结构相对简单,包含3个卷积+池化层,后接一个展平层、一个隐藏层和输出层。隐藏层中使用了dropout来防止过拟合。
- 实验
实验设置:实验使用了基于模仿方法和Deep Voice算法生成的原始和伪造语音录音。数据集被平衡地分为训练集和验证集。
评价指标:使用准确率、损失、精确率和召回率等指标来评估模型性能。
过拟合策略:通过图像增强(水平翻转)和dropout来避免过拟合。实验结果表明,dropout率为0.2时模型性能较好。
外部测试:使用400个新的录音(20个原始录音和380个伪造录音)进行外部测试。测试结果显示,模型在检测模仿方法生成的伪造语音时精确率为0.997,召回率为0.997;在检测Deep Voice生成的伪造语音时精确率为0.985,召回率为0.944。
贡献点:
提出了一种基于深度学习的伪造语音检测方法,能够有效区分原始语音和通过模仿及Deep Voice技术生成的伪造语音。