Deep4SNet: deep learning for fake speech classification

server/2025/1/15 23:05:19/
Deep4SNet:用于虚假语音分类的深度学习
摘要:
虚假语音是指即使通过人工智能或信号处理技术产生的语音记录。生成虚假录音的方法有"深度语音"和"模仿"。在《深沉的声音》中,录音听起来有点合成,而在《模仿》中,录音听起来很自然。另一方面,考虑到在互联网上传输的大量语音记录,检测虚假内容的任务并不微不足道。
为了检测通过深度语音和模仿获得的虚假语音,我们 提出了一种基于卷积神经网络( Convolutional Neural Network,CNN )的解决方案,使用图像增强和Dropout。所提出的架构使用2092个原始和虚假语音记录的直方图进行训练,并使用864个直方图进行交叉验证。使用476个新直方图进行外部验证,并计算准确率( Precision,P )和召回率( Recall,R )。对模仿型探究录音的 检测达到了P = 0.997,R = 0.997,对Deep Voice-based录音的检测达到了P = 0.985,R = 0.944。全局精度为0.985。根据结果,所提出的系统在检测虚假语音内容方面是成功的。
结论:
  • Deep4SNet在检测模仿和Deep Voice生成的伪造语音方面表现出色,整体准确率达到0.985。
  • 通过对比手工特征和自动特征提取方法,论文发现自动特征提取(使用直方图图像)更适合于伪造语音检测任务。
  • 通过图像增强和dropout技术,模型在防止过拟合方面表现出良好的鲁棒性。
背景
  • 伪造语音问题 :随着人工智能和信号处理技术的发展,伪造语音变得越来越逼真。伪造语音可能用于欺骗、误导或作为虚假证据,尤其是在法律领域,因此检测伪造语音具有重要意义。
  • 现有方法:传统的语音验证方法主要依赖于高斯混合模型(GMM)和通用背景模型(UBM)。近年来,基于遗传算法(GA)、蚁群优化(ACO)、支持向量机(SVM)和深度学习(DL)的方法也被提出用于语音验证和伪造语音检测。
内容成果
  • 研究方法
论文提出了一种基于卷积神经网络(CNN)的伪造语音检测模型,称为Deep4SNet。该模型使用图像增强和dropout技术来提高检测性能。
模型训练使用了2092个直方图,这些直方图来自原始语音和伪造语音录音。此外,还使用了864个直方图进行交叉验证,以及476个新的直方图用于外部验证。
论文比较了手工特征提取和自动特征提取两种方法。手工特征提取依赖于统计值和熵等特征,而自动特征提取则通过将语音信号转换为直方图图像来实现,将问题转化为计算机视觉问题。
Deep4SNet的网络结构相对简单,包含3个卷积+池化层,后接一个展平层、一个隐藏层和输出层。隐藏层中使用了dropout来防止过拟合。
  • 实验
实验设置:实验使用了基于模仿方法和Deep Voice算法生成的原始和伪造语音录音。数据集被平衡地分为训练集和验证集。
评价指标:使用准确率、损失、精确率和召回率等指标来评估模型性能。
过拟合策略:通过图像增强(水平翻转)和dropout来避免过拟合。实验结果表明,dropout率为0.2时模型性能较好。
外部测试:使用400个新的录音(20个原始录音和380个伪造录音)进行外部测试。测试结果显示,模型在检测模仿方法生成的伪造语音时精确率为0.997,召回率为0.997;在检测Deep Voice生成的伪造语音时精确率为0.985,召回率为0.944。
贡献点:
提出了一种基于深度学习的伪造语音检测方法,能够有效区分原始语音和通过模仿及Deep Voice技术生成的伪造语音。

http://www.ppmy.cn/server/158681.html

相关文章

力扣经典题目之55.跳跃游戏

2&#xff0c;解题思路 public class Solution {public boolean canJump(int[] nums) {int n nums.length;int rightmost 0;for (int i 0; i < n; i) {if (i < rightmost) {rightmost Math.max(rightmost, i nums[i]);if (rightmost > n - 1) {return true;}}}r…

vim基本命令(vi、工作模式、普通模式、插入模式、可视模式、命令行模式、复制、粘贴、插入、删除、查找、替换)

1. Vim的作用 1.1. 文本编辑 1.1.1. 基础文本编辑功能 Vim是一个功能强大的文本编辑器&#xff0c;它可以用来创建、修改和保存各种文本文件。无论是编写简单的文本笔记&#xff0c;还是复杂的代码文件&#xff0c;Vim都能胜任。例如&#xff0c;我们可以用它来编写Python脚…

51单片机 AT24C02(I2C总线)

存储器 随机存储 RAM 只读存储 ROM AT24C02芯片 是一种可以实现掉电不丢失的存储器&#xff0c;可用于保存单片机运行时想要永久保存的数据信息 存储材质&#xff1a;E2PROM 通讯接口&#xff1a;I2C总线 容量&#xff1a;256字节 I2C总线 一种通用的数据总线 两根通信线…

计算机视觉算法实战——视频分析(Video Analysis)

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​​​​​​ ​​​​​​​​​​​​ ​​​​​ 视频分析是计算机视觉中的一个重要领域&#xff0c;旨在从视频数据中提取有用的信息&…

java_mybatis_mapper_sql语句示例

需求&#xff1a; 有2张表&#xff0c;一张活动信息表(activity_info), 一张参加活动的商品表&#xff08;activity_sku&#xff09; 查询当前在活动期间的&#xff0c;且存在于我输入的商品(sku)列表中的商品(sku)的编号id 参考&#xff1a;63 尚上优选项目-平台管理端-营销…

多模态人工智能在零售业的未来:通过GPT-4 Vision和MongoDB实现智能产品发现

多模态人工智能在零售业的未来&#xff1a;通过GPT-4 Vision和MongoDB实现智能产品发现 引言 想象一下&#xff0c;顾客在购物时只需上传一张他们所期望的服装或产品的照片&#xff0c;几分钟内便能收到来自他们最喜欢的商店的个性化推荐。这就是多模态人工智能在零售领域所带…

【20250113】基于肌肉形变测量的连续步态相位估计算法,可自适应步行速度和地形坡度...

【基本信息】 论文标题&#xff1a;Continuous Gait Phase Estimation by Muscle Deformations with Speed and Ramp Adaptability 发表期刊&#xff1a;IEEE Sensors Journal 发表时间&#xff1a;2024年5月30日 【访问链接】 论文链接&#xff1a;https://ieeexplore.ieee.or…

JAVA实现2048小游戏(附源码)

文章目录 一、设计来源2048小游戏讲解1.1 主界面1.2 4*4难度界面1.3 5*5难度界面1.4 6*6难度界面1.5 挑战失败提示界面 二、效果和源码2.1 动态效果2.2 源代码 源码下载更多优质源码分享 作者&#xff1a;xcLeigh 文章地址&#xff1a;https://blog.csdn.net/weixin_43151418/a…