Deep4SNet: deep learning for fake speech classification

Deep4SNet: deep learning for fake speech classification

server/2025/1/15 23:05:19/

Deep4SNet：用于虚假语音分类的深度学习

摘要：

虚假语音是指即使通过人工智能或信号处理技术产生的语音记录。生成虚假录音的方法有"深度语音"和"模仿"。在《深沉的声音》中，录音听起来有点合成，而在《模仿》中，录音听起来很自然。另一方面，考虑到在互联网上传输的大量语音记录，检测虚假内容的任务并不微不足道。

为了检测通过深度语音和模仿获得的虚假语音，我们 提出了一种基于卷积神经网络( Convolutional Neural Network，CNN )的解决方案，使用图像增强和Dropout。所提出的架构使用2092个原始和虚假语音记录的直方图进行训练，并使用864个直方图进行交叉验证。使用476个新直方图进行外部验证，并计算准确率( Precision，P )和召回率( Recall，R )。对模仿型探究录音的 检测达到了P = 0.997，R = 0.997，对Deep Voice-based录音的检测达到了P = 0.985，R = 0.944。全局精度为0.985。根据结果，所提出的系统在检测虚假语音内容方面是成功的。

结论：

Deep4SNet在检测模仿和Deep Voice生成的伪造语音方面表现出色，整体准确率达到0.985。
通过对比手工特征和自动特征提取方法，论文发现自动特征提取（使用直方图图像）更适合于伪造语音检测任务。
通过图像增强和dropout技术，模型在防止过拟合方面表现出良好的鲁棒性。

背景：

伪造语音问题 ：随着人工智能和信号处理技术的发展，伪造语音变得越来越逼真。伪造语音可能用于欺骗、误导或作为虚假证据，尤其是在法律领域，因此检测伪造语音具有重要意义。

现有方法：传统的语音验证方法主要依赖于高斯混合模型（GMM）和通用背景模型（UBM）。近年来，基于遗传算法（GA）、蚁群优化（ACO）、支持向量机（SVM）和深度学习（DL）的方法也被提出用于语音验证和伪造语音检测。

内容成果 ：

研究方法

论文提出了一种基于卷积神经网络（CNN）的伪造语音检测模型，称为Deep4SNet。该模型使用图像增强和dropout技术来提高检测性能。

模型训练使用了2092个直方图，这些直方图来自原始语音和伪造语音录音。此外，还使用了864个直方图进行交叉验证，以及476个新的直方图用于外部验证。

论文比较了手工特征提取和自动特征提取两种方法。手工特征提取依赖于统计值和熵等特征，而自动特征提取则通过将语音信号转换为直方图图像来实现，将问题转化为计算机视觉问题。

Deep4SNet的网络结构相对简单，包含3个卷积+池化层，后接一个展平层、一个隐藏层和输出层。隐藏层中使用了dropout来防止过拟合。

实验

实验设置：实验使用了基于模仿方法和Deep Voice算法生成的原始和伪造语音录音。数据集被平衡地分为训练集和验证集。

评价指标：使用准确率、损失、精确率和召回率等指标来评估模型性能。

过拟合策略：通过图像增强（水平翻转）和dropout来避免过拟合。实验结果表明，dropout率为0.2时模型性能较好。

外部测试：使用400个新的录音（20个原始录音和380个伪造录音）进行外部测试。测试结果显示，模型在检测模仿方法生成的伪造语音时精确率为0.997，召回率为0.997；在检测Deep Voice生成的伪造语音时精确率为0.985，召回率为0.944。

贡献点：

提出了一种基于深度学习的伪造语音检测方法，能够有效区分原始语音和通过模仿及Deep Voice技术生成的伪造语音。

http://www.ppmy.cn/server/158681.html

相关文章

力扣经典题目之55.跳跃游戏

力扣经典题目之55.跳跃游戏

2，解题思路 public class Solution {public boolean canJump(int[] nums) {int n nums.length;int rightmost 0;for (int i 0; i < n; i) {if (i < rightmost) {rightmost Math.max(rightmost, i nums[i]);if (rightmost > n - 1) {return true;}}}r…

阅读更多...

vim基本命令（vi、工作模式、普通模式、插入模式、可视模式、命令行模式、复制、粘贴、插入、删除、查找、替换）

vim基本命令（vi、工作模式、普通模式、插入模式、可视模式、命令行模式、复制、粘贴、插入、删除、查找、替换）

1. Vim的作用 1.1. 文本编辑 1.1.1. 基础文本编辑功能 Vim是一个功能强大的文本编辑器，它可以用来创建、修改和保存各种文本文件。无论是编写简单的文本笔记，还是复杂的代码文件，Vim都能胜任。例如，我们可以用它来编写Python脚…

阅读更多...

51单片机 AT24C02（I2C总线）

51单片机 AT24C02（I2C总线）

存储器随机存储 RAM 只读存储 ROM AT24C02芯片是一种可以实现掉电不丢失的存储器，可用于保存单片机运行时想要永久保存的数据信息存储材质：E2PROM 通讯接口：I2C总线容量：256字节 I2C总线一种通用的数据总线两根通信线…

阅读更多...

计算机视觉算法实战——视频分析（Video Analysis）

计算机视觉算法实战——视频分析（Video Analysis）

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ 视频分析是计算机视觉中的一个重要领域，旨在从视频数据中提取有用的信息&…

阅读更多...

java_mybatis_mapper_sql语句示例

java_mybatis_mapper_sql语句示例

需求： 有2张表，一张活动信息表(activity_info), 一张参加活动的商品表（activity_sku） 查询当前在活动期间的，且存在于我输入的商品(sku)列表中的商品(sku)的编号id 参考：63 尚上优选项目-平台管理端-营销…

阅读更多...

多模态人工智能在零售业的未来：通过GPT-4 Vision和MongoDB实现智能产品发现

多模态人工智能在零售业的未来：通过GPT-4 Vision和MongoDB实现智能产品发现

多模态人工智能在零售业的未来：通过GPT-4 Vision和MongoDB实现智能产品发现引言想象一下，顾客在购物时只需上传一张他们所期望的服装或产品的照片，几分钟内便能收到来自他们最喜欢的商店的个性化推荐。这就是多模态人工智能在零售领域所带…

阅读更多...

【20250113】基于肌肉形变测量的连续步态相位估计算法，可自适应步行速度和地形坡度...

【20250113】基于肌肉形变测量的连续步态相位估计算法，可自适应步行速度和地形坡度...

【基本信息】论文标题：Continuous Gait Phase Estimation by Muscle Deformations with Speed and Ramp Adaptability 发表期刊：IEEE Sensors Journal 发表时间：2024年5月30日【访问链接】论文链接：https://ieeexplore.ieee.or…

阅读更多...

JAVA实现2048小游戏(附源码)

JAVA实现2048小游戏(附源码)

文章目录一、设计来源2048小游戏讲解1.1 主界面1.2 4*4难度界面1.3 5*5难度界面1.4 6*6难度界面1.5 挑战失败提示界面二、效果和源码2.1 动态效果2.2 源代码源码下载更多优质源码分享作者：xcLeigh 文章地址：https://blog.csdn.net/weixin_43151418/a…

阅读更多...

最新文章