结合帧级边界检测和深度伪造检测,定位部分伪造音频攻击中的篡改区域

devtools/2025/1/20 18:27:08/

Integrating frame-level boundary detection and deepfake detection for locating manipulated regions in partially spoofed audio forgery 

摘要:
部分伪造音频是一种深度伪造的变体,它通过引入伪造或外部来源的善意音频片段来操纵音频语句,作为一种音频伪造攻击,对人类和人工智能应用构成了越来越大的威胁。研究人员最近开发了有价值的数据库,以帮助制定针对此类袭击的有效对策。虽然现有的反制措施主要集中在整个语音或片段的层面上识别部分虚假音频,但本文通过提出帧级系统来引入范式转换。这些系统旨在检测被操纵的语音,并在部分伪造的音频中精确定位发生操纵的特定区域。
我们的方法利用了从大规模自监督预训练模型中提取的声学特征,在各种公开的数据库上进行了评估,取得了很好的结果。此外,我们还研究了边界和深度伪造检测系统的集成,探索了它们潜在的协同作用和不足。重要的是,我们的技术取得了令人印象深刻的结果。我们在ADD 2022挑战的Track 2的测试数据集上取得了最先进的性能,等错误率为4.4 %。此外,我们的方法在ADD 2023挑战赛的Track 2中定位操纵区域表现出卓越的性能,最终的ADD分数为0.6713,并获得了最高的位置。
结论:
本文提出了一种新颖的检测方法,结合了帧级边界检测和深度伪造检测技术,能够有效识别和定位部分伪造音频中的伪造区域。 通过在多个公开数据集上的广泛评估,结果显示该方法在检测准确性和定位精度上均表现出色,尤其在ADD 2023挑战赛中取得了优异成绩,最终得分为0.6713,位列第一。这表明该方法在实际应用中具有良好的可行性和有效性。
背景
随着深度学习技术的迅速发展,数字内容(如文本、图像和音频)的生成和操控变得越来越容易。这些技术的普及虽然带来了许多便利,但也引发了严重的社会安全问题,尤其是在音频伪造方面。音频伪造技术可以被用于传播虚假信息、操控舆论,甚至在法律证据中造成误导。因此, 开发有效的检测方法以识别和定位伪造音频的区域变得尤为重要
内容成果
本文提出了一个帧级检测系统 ,其整体架构包括两个主要组件: 边界检测系统 深度伪造检测系统 这两个系统相辅相成,共同实现对音频中伪造区域的精确检测和定位。
  • 边界检测
边界检测的主要任务是识别音频信号中不同帧之间的边界,尤其是在伪造区域的边界。
通过分析音频信号的特征,系统能够检测到帧的变化点,这些变化点通常对应于音频的操控或拼接位置。边界检测的准确性直接影响到后续伪造区域的定位效果。
  • 帧级分析
细粒度检测,与传统的段级或整体级检测方法不同, 帧级检测系统能够在每一帧上进行分析 。这种细粒度的检测方式使得系统能够识别出音频中被操控的具体帧,从而更准确地定位伪造区域。
投票机制:在进行段级伪造检测时,系统采用多数投票机制。 如果一个音频片段中的大多数帧被判定为真实,则该片段被视为真实音频;否则,视为伪造音频 。这种方法提高了检测的准确性和鲁棒性。
  • 深度伪造检测
深度学习模型:系统利用深度学习技术,特别是 卷积神经网络(CNN),来提取音频信号的特征 。通过训练模型识别伪造音频的特征,系统能够有效地区分真实音频和伪造音频。
自监督学习:系统还利用 大规模自监督预训练模型(如WavLM和Wav2Vec2)进行特征提取。这些模型在音频特征提取方面表现出色,能够捕捉到音频信号中的细微差别。
  • 实验评估
在实验中,帧级检测模型的输入长度 l 设置为 1.28 秒,输入样本的大小为 20,480 个采样点。模型的帧数 T 设置为 64,考虑到 Wav2Vec2 和 WavLM 模型的帧率为 20 毫秒。实验中还采用了在线数据增强技术,使用了 MUSAN 和 RIRs 数据集,以提高模型的鲁棒性和泛化能力。
  • 性能评估指标
实验中使用了多种性能评估指标来衡量模型的效果,包括:
等错误率 (EER):这是一个常用的评估指标,表示假阳性率和假阴性率相等时的错误率。较低的 EER 值表明模型在区分真实和伪造音频方面的性能更好。
ADD 分数:在 ADD 2023 挑战中,模型获得了 0.6713 的最终 ADD 分数,表明其在定位伪造区域方面的有效性。
  • 实验结果
检测性能:在 ADD2022 Track 2 测试数据集上, 模型达到了 4.4% 的 EER,显示出其在检测部分伪造音频方面的优越性能。此外,在 ADD 2023 挑战中,模型获得了第一名,进一步验证了其有效性。
区域定位能力:实验结果表明,模型不仅能够检测伪造音频,还能准确定位伪造区域。这一能力在处理复杂的音频拼接和合成时尤为重要。
  • 模型比较
在实验中,研究者还将所提出的帧级反欺骗检测模型与现有的最先进的段级反欺骗系统(如 AASIST 系统)进行了比较。结果显示,所提出的模型在音频特征提取方面表现更佳,尤其是在跨域评估中,展现出更强的鲁棒性。
贡献点:
  • 创新的检测框架:提出了一种新的框架,能够在 帧级别上检测和定位音频中的伪造区域。这种方法不仅提高了检测的准确性,还增强了对复杂伪造技术的适应能力。
  • 实证研究:通过在多个公开数据集上的实验,提供了丰富的实证数据,证明了所提出方法的有效性。这为后续研究提供了重要的参考。
  • 跨域应用潜力:研究结果显示, 该方法在不同音频数据集上的表现一致,表明其具有良好的跨域应用潜力,能够适应多种实际场景

http://www.ppmy.cn/devtools/152157.html

相关文章

Ubuntu升级Linux内核教程

本文作者CVE-柠檬i: CVE-柠檬i-CSDN博客 本文使用的方法是dpkg安装,目前版本为5.4.0-204,要升级成5.8.5版本 下载 下载网站:https://kernel.ubuntu.com/mainline/ 在该网站下载deb包,选择自己想要升级的版本,这里是5…

支持selenium的chrome driver更新到132.0.6834.83

最近chrome释放新版本:132.0.6834.83 如果运行selenium自动化测试出现以下问题,是需要升级chromedriver才可以解决的。 selenium.common.exceptions.SessionNotCreatedException: Message: session not created: This version of ChromeDriver only su…

高级Python Web开发:FastAPI的前后端集成与API性能优化

高级Python Web开发:FastAPI的前后端集成与API性能优化 目录 🛠️ 前后端集成的基本原理与实践🚀 FastAPI的API设计与实现📈 API性能测试与负载测试 📊 使用Locust进行API性能测试💥 使用Apache JMeter进…

快速搭建深度学习环境(Linux:miniconda+pytorch+jupyter notebook)

本文基于服务器端环境展开,使用的虚拟终端为Xshell。 miniconda miniconda是Anaconda的轻量版,仅包含Conda和Python,如果只做深度学习,可使用miniconda。 [注]:Anaconda、Conda与Miniconda Conda:创建和管…

基于Ubuntu22.04安装SVN服务器

基于Ubuntu22.04安装SVN服务器 1.安装SVN服务器2.修改SVN服务器版本库目录3.调整SVN配置4.重启SVN服务5.安装TortoiseSVN 1.安装SVN服务器 确认uubuntu是否已经安装了SVN命令,如果没安装,使用对应的命令进行安装 svn //查看命令是否存在 s…

Mysql 主从复制原理及其工作过程,配置一主两从实验

主从原理:MySQL 主从同步是一种数据库复制技术,它通过将主服务器上的数据更改复制到一个或多个从服务器,实现数据的自动同步。 主从同步的核心原理是将主服务器上的二进制日志复制到从服务器,并在从服务器上执行这些日志中的操作…

管理口令安全和资源(一)

学习目标 Manage passwords using profiles: 使用配置文件(profiles)来管理密码。这意味着你应该能够设置和修改密码策略,比如密码的复杂性、有效期、尝试次数限制等。在Oracle数据库中,配置文件是一组可以应用于所有用户的预定义…

力扣203题(2)——移除链表元素

题目及递归法在我的这一篇博客,各位小伙伴可以移步这里q查看: 力扣203题—— 移除链表元素-CSDN博客 在原有链表上删除: 纠错:里面有个注释写顺了,这是定义链表指针去遍历一遍链表类似于遍历数组 共勉!