结合帧级边界检测和深度伪造检测，定位部分伪造音频攻击中的篡改区域

Integrating frame-level boundary detection and deepfake detection for locating manipulated regions in partially spoofed audio forgery

摘要：

部分伪造音频是一种深度伪造的变体，它通过引入伪造或外部来源的善意音频片段来操纵音频语句，作为一种音频伪造攻击，对人类和人工智能应用构成了越来越大的威胁。研究人员最近开发了有价值的数据库，以帮助制定针对此类袭击的有效对策。虽然现有的反制措施主要集中在整个语音或片段的层面上识别部分虚假音频，但本文通过提出帧级系统来引入范式转换。这些系统旨在检测被操纵的语音，并在部分伪造的音频中精确定位发生操纵的特定区域。

我们的方法利用了从大规模自监督预训练模型中提取的声学特征，在各种公开的数据库上进行了评估，取得了很好的结果。此外，我们还研究了边界和深度伪造检测系统的集成，探索了它们潜在的协同作用和不足。重要的是，我们的技术取得了令人印象深刻的结果。我们在ADD 2022挑战的Track 2的测试数据集上取得了最先进的性能，等错误率为4.4 %。此外，我们的方法在ADD 2023挑战赛的Track 2中定位操纵区域表现出卓越的性能，最终的ADD分数为0.6713，并获得了最高的位置。

结论：

本文提出了一种新颖的检测方法，结合了帧级边界检测和深度伪造检测技术，能够有效识别和定位部分伪造音频中的伪造区域。通过在多个公开数据集上的广泛评估，结果显示该方法在检测准确性和定位精度上均表现出色，尤其在ADD 2023挑战赛中取得了优异成绩，最终得分为0.6713，位列第一。这表明该方法在实际应用中具有良好的可行性和有效性。

背景：

随着深度学习技术的迅速发展，数字内容（如文本、图像和音频）的生成和操控变得越来越容易。这些技术的普及虽然带来了许多便利，但也引发了严重的社会安全问题，尤其是在音频伪造方面。音频伪造技术可以被用于传播虚假信息、操控舆论，甚至在法律证据中造成误导。因此， 开发有效的检测方法以识别和定位伪造音频的区域变得尤为重要。

内容成果 ：

本文提出了一个帧级检测系统 ，其整体架构包括两个主要组件： 边界检测系统 和 深度伪造检测系统 。这两个系统相辅相成，共同实现对音频中伪造区域的精确检测和定位。

边界检测

边界检测的主要任务是识别音频信号中不同帧之间的边界，尤其是在伪造区域的边界。

通过分析音频信号的特征，系统能够检测到帧的变化点，这些变化点通常对应于音频的操控或拼接位置。边界检测的准确性直接影响到后续伪造区域的定位效果。

帧级分析

细粒度检测，与传统的段级或整体级检测方法不同， 帧级检测系统能够在每一帧上进行分析 。这种细粒度的检测方式使得系统能够识别出音频中被操控的具体帧，从而更准确地定位伪造区域。

投票机制：在进行段级伪造检测时，系统采用多数投票机制。 如果一个音频片段中的大多数帧被判定为真实，则该片段被视为真实音频；否则，视为伪造音频 。这种方法提高了检测的准确性和鲁棒性。

深度伪造检测

深度学习模型：系统利用深度学习技术，特别是卷积神经网络（CNN），来提取音频信号的特征。通过训练模型识别伪造音频的特征，系统能够有效地区分真实音频和伪造音频。

自监督学习：系统还利用大规模自监督预训练模型（如WavLM和Wav2Vec2）进行特征提取。这些模型在音频特征提取方面表现出色，能够捕捉到音频信号中的细微差别。

实验评估

在实验中，帧级检测模型的输入长度 l 设置为 1.28 秒，输入样本的大小为 20,480 个采样点。模型的帧数 T 设置为 64，考虑到 Wav2Vec2 和 WavLM 模型的帧率为 20 毫秒。实验中还采用了在线数据增强技术，使用了 MUSAN 和 RIRs 数据集，以提高模型的鲁棒性和泛化能力。