结合帧级边界检测和深度伪造检测,定位部分伪造音频攻击中的篡改区域

embedded/2025/1/20 3:44:21/

Integrating frame-level boundary detection and deepfake detection for locating manipulated regions in partially spoofed audio forgery 

摘要:
部分伪造音频是一种深度伪造的变体,它通过引入伪造或外部来源的善意音频片段来操纵音频语句,作为一种音频伪造攻击,对人类和人工智能应用构成了越来越大的威胁。研究人员最近开发了有价值的数据库,以帮助制定针对此类袭击的有效对策。虽然现有的反制措施主要集中在整个语音或片段的层面上识别部分虚假音频,但本文通过提出帧级系统来引入范式转换。这些系统旨在检测被操纵的语音,并在部分伪造的音频中精确定位发生操纵的特定区域。
我们的方法利用了从大规模自监督预训练模型中提取的声学特征,在各种公开的数据库上进行了评估,取得了很好的结果。此外,我们还研究了边界和深度伪造检测系统的集成,探索了它们潜在的协同作用和不足。重要的是,我们的技术取得了令人印象深刻的结果。我们在ADD 2022挑战的Track 2的测试数据集上取得了最先进的性能,等错误率为4.4 %。此外,我们的方法在ADD 2023挑战赛的Track 2中定位操纵区域表现出卓越的性能,最终的ADD分数为0.6713,并获得了最高的位置。
结论:
本文提出了一种新颖的检测方法,结合了帧级边界检测和深度伪造检测技术,能够有效识别和定位部分伪造音频中的伪造区域。 通过在多个公开数据集上的广泛评估,结果显示该方法在检测准确性和定位精度上均表现出色,尤其在ADD 2023挑战赛中取得了优异成绩,最终得分为0.6713,位列第一。这表明该方法在实际应用中具有良好的可行性和有效性。
背景
随着深度学习技术的迅速发展,数字内容(如文本、图像和音频)的生成和操控变得越来越容易。这些技术的普及虽然带来了许多便利,但也引发了严重的社会安全问题,尤其是在音频伪造方面。音频伪造技术可以被用于传播虚假信息、操控舆论,甚至在法律证据中造成误导。因此, 开发有效的检测方法以识别和定位伪造音频的区域变得尤为重要
内容成果
本文提出了一个帧级检测系统 ,其整体架构包括两个主要组件: 边界检测系统 深度伪造检测系统 这两个系统相辅相成,共同实现对音频中伪造区域的精确检测和定位。
  • 边界检测
边界检测的主要任务是识别音频信号中不同帧之间的边界,尤其是在伪造区域的边界。
通过分析音频信号的特征,系统能够检测到帧的变化点,这些变化点通常对应于音频的操控或拼接位置。边界检测的准确性直接影响到后续伪造区域的定位效果。
  • 帧级分析
细粒度检测,与传统的段级或整体级检测方法不同, 帧级检测系统能够在每一帧上进行分析 。这种细粒度的检测方式使得系统能够识别出音频中被操控的具体帧,从而更准确地定位伪造区域。
投票机制:在进行段级伪造检测时,系统采用多数投票机制。 如果一个音频片段中的大多数帧被判定为真实,则该片段被视为真实音频;否则,视为伪造音频 。这种方法提高了检测的准确性和鲁棒性。
  • 深度伪造检测
深度学习模型:系统利用深度学习技术,特别是 卷积神经网络(CNN),来提取音频信号的特征 。通过训练模型识别伪造音频的特征,系统能够有效地区分真实音频和伪造音频。
自监督学习:系统还利用 大规模自监督预训练模型(如WavLM和Wav2Vec2)进行特征提取。这些模型在音频特征提取方面表现出色,能够捕捉到音频信号中的细微差别。
  • 实验评估
在实验中,帧级检测模型的输入长度 l 设置为 1.28 秒,输入样本的大小为 20,480 个采样点。模型的帧数 T 设置为 64,考虑到 Wav2Vec2 和 WavLM 模型的帧率为 20 毫秒。实验中还采用了在线数据增强技术,使用了 MUSAN 和 RIRs 数据集,以提高模型的鲁棒性和泛化能力。
  • 性能评估指标
实验中使用了多种性能评估指标来衡量模型的效果,包括:
等错误率 (EER):这是一个常用的评估指标,表示假阳性率和假阴性率相等时的错误率。较低的 EER 值表明模型在区分真实和伪造音频方面的性能更好。
ADD 分数:在 ADD 2023 挑战中,模型获得了 0.6713 的最终 ADD 分数,表明其在定位伪造区域方面的有效性。
  • 实验结果
检测性能:在 ADD2022 Track 2 测试数据集上, 模型达到了 4.4% 的 EER,显示出其在检测部分伪造音频方面的优越性能。此外,在 ADD 2023 挑战中,模型获得了第一名,进一步验证了其有效性。
区域定位能力:实验结果表明,模型不仅能够检测伪造音频,还能准确定位伪造区域。这一能力在处理复杂的音频拼接和合成时尤为重要。
  • 模型比较
在实验中,研究者还将所提出的帧级反欺骗检测模型与现有的最先进的段级反欺骗系统(如 AASIST 系统)进行了比较。结果显示,所提出的模型在音频特征提取方面表现更佳,尤其是在跨域评估中,展现出更强的鲁棒性。
贡献点:
  • 创新的检测框架:提出了一种新的框架,能够在 帧级别上检测和定位音频中的伪造区域。这种方法不仅提高了检测的准确性,还增强了对复杂伪造技术的适应能力。
  • 实证研究:通过在多个公开数据集上的实验,提供了丰富的实证数据,证明了所提出方法的有效性。这为后续研究提供了重要的参考。
  • 跨域应用潜力:研究结果显示, 该方法在不同音频数据集上的表现一致,表明其具有良好的跨域应用潜力,能够适应多种实际场景

http://www.ppmy.cn/embedded/155373.html

相关文章

文件上传生成pdf

前端后端 import org.springframework.http.HttpStatus; import org.springframework.http.ResponseEntity; import org.springframework.web.bind.annotation.*; import org.springframework.web.multipart.MultipartFile;import java.io.File; import java.io.IOException;Re…

基于微信小程序的中国各地美食推荐平台的设计与实现springboot+论文源码调试讲解

第4章 系统设计 4.1 系统设计的原则 在系统设计过程中,也需要遵循相应的设计原则,这些设计原则可以帮助设计者在短时间内设计出符合设计规范的设计方案。设计原则主要有可靠性,安全性,可定制化,可扩展性,可…

什么是 OpenResty

1、OpenResty简介 1.1 了解OpenResty OpenResty是一个基于 Nginx 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。 简单地说OpenRes…

【计算机体系结构、微架构性能分析】core 与 uncore 分别是哪一些部分?区分 core 和 uncore

在计算机体系结构中,Core 和 Uncore 是描述处理器内部架构的两个重要概念,尤其在多核处理器中更为常见。 1. Core(核心) Core 指的是处理器中的计算核心,是执行指令和处理数据的基本单元。每个核心都包含独立的执行单…

自动驾驶汽车目前面临的最大技术挑战是什么?

1. 感知技术的局限性 恶劣天气和复杂环境:当前的传感器在恶劣天气(如雨、雾、雪)和复杂道路条件下的感知能力仍有待提高。例如,激光雷达在穿透雨雾时的能力有限,易受强光干扰;摄像头在夜间和恶劣天气中的视…

Flowable 管理各业务流程:流程设计器 (获取流程模型 XML)、流程部署、启动流程、流程审批

文章目录 引言I 表结构主要表前缀及其用途核心表II 流程设计器(Flowable BPMN模型编辑器插件)Flowable-UIvue插件III 流程部署部署步骤例子:根据流程模型ID部署IV 启动流程启动步骤ACT_RE_PROCDEF:流程定义相关信息例子:根据流程 ID 启动流程V 流程审批审批步骤Flowable 审…

【全栈开发】----Mysql基本配置与使用

本篇是在已下载Mysql的情况下进行的,若还未下载或未创建Mysql服务,请转到这篇: 2024 年 MySQL 8.0.40 安装配置、Workbench汉化教程最简易(保姆级)_mysql8.0.40下载安装教程-CSDN博客 本文对于mysql的操作均使用控制台sql原生代码…

哈尔滨有双线服务器租用吗?

哈尔滨有双线服务器租用吗?双线服务器是一种针对哈尔滨特有的网络环境优化的服务器解决方案,它能够同时支持中国电信和中国联通或移动其中两家主要ISP(互联网服务提供商)的连接。 由于中国南方地区多采用电信网络,而北…