通过聚合和分离进行音频深度伪造检测的领域泛化

news/2025/3/1 20:30:21/

Domain Generalization Via Aggregation and Separation for Audio Deepfake Detection

IEEE Transactions on Information Forensics and Security

  • 影响因子:6.3
  • JCR2区,中科院1区(TOP

通过聚合和分离进行音频深度伪造检测的领域泛化

摘要

本文提出了一种用于音频深度伪造检测( ADD )的聚合分离域泛化( ASDG )方法。不同方法产生的虚假语音表现出不同的幅频响应,而不是真实语音。此外,训练集中的欺骗攻击可能跟不上现实世界深度伪造分布不断变化的多样性。鉴于此,我们试图学习一个理想的特征空间,能够聚合真实语音并分离虚假语音,以实现在未见到的目标域检测中更好的泛化性。具体来说,我们首先提出了一种基于轻量级卷积神经网络( LCNN )的特征生成器,用于生成特征空间并将特征分类为真假。同时,利用单边域对抗学习使得只有来自不同域的真实语音不可区分,从而使得真实语音在特征空间中的分布得以聚合。进一步地,在聚合真实语音分布的同时,采用三元组损失分离虚假语音的分布。最后,为了检验模型的可推广性,我们用3个不同的英文数据集进行训练,并在跨语言和噪声数据集的苛刻条件下进行评估。大量实验表明,ASDG在跨域任务中优于基准模型,与RawNet2相比,等错误率( Equal Error Rate,EER )最高降低了39.24 %。证明了所提出的聚合分离域泛化方法可以作为提高模型泛化能力的有效策略。

结论

  • 在本文中,我们介绍了一种聚合和分离的领域泛化(ASDG方法,并将其应用到ADD任务中。我们使用改进的LCNN作为区分真假图像的主干。此外,还设计了一种三元组挖掘方法,用于分离虚假语音和聚合真实语音。同时,单边域分类器使得来自不同域的真实语音无法区分,便于真实语音的进一步聚合。
  • 目前的ADD模型与我们的模型的不同之处在于,我们专注于提高模型的泛化能力,即即使在未知领域也能取得良好的性能。我们期望在有限的数据集中生成一个理想的ADD特征空间,并通过对特征空间的可视化来实现目标。根据测试结果,我们提出的模型在外域ADD任务中表现出最好的性能,在干净条件下实现了最低的EER为5.70 %。未来的工作将集中在更多的领域泛化和迁移学习方法在ADD任务中的应用。

背景

当前的ADD模型在跨域泛化能力方面存在显著不足。这些不足主要源于缺乏大规模和多样化的数据集,导致模型在真实场景中的表现不佳。尽管深度学习方法在ADD任务中通常优于传统方法,但它们的可解释性较差,这使得模型的决策过程难以理解。

早期的ADD方法在同一域内的数据库测试中表现良好,但在跨域情况下却面临挑战。这些挑战主要是由于不同的通道、编解码器、压缩格式和录音设备等因素造成的。这些因素影响了ADD模型的判别能力,尤其是在面对未见过的伪造攻击时,模型可能会产生不准确的判断。

为了提高模型在跨域数据集上的泛化能力,研究者们提出了数据增强(DA)技术,以增加数据分布的多样性。然而,单靠数据增强方法并不足以解决问题,因为在现实场景中存在大量未见过的伪造攻击类型。因此,文章的研究重点是通过聚合和分离的方法来改善模型的泛化能力,同时增强模型隐藏状态的可解释性,以应对这些挑战

内容成果

提出的方法

ASDG方法的核心思想是通过聚合真实语音的特征分布和分离伪造语音的特征分布,来构建一个理想的特征空间。这一过程主要通过以下几个关键组件实现:

红线和绿线分别表示真实和虚假语音的前向传播路径。由 FC 组成的分类器将特征压缩为 1 维以进行二进制交叉熵损失,同时实现三元组挖掘以优化特征空间。真实语音特征将被发送到域分类器以识别域,并使用梯度反向层 (GRL) 使真实特征无法区分。

特征生成器

轻量级卷积神经网络(LCNN:使用LCNN作为特征生成器,旨在从输入的音频信号中提取有效的特征。这些特征被分类为真实和伪造,以便后续处理。

单侧域对抗学习

对抗域判别器:在ASDG中,采用单侧域对抗学习策略,使得来自不同域的真实语音特征在特征空间中不可区分。具体来说,输入到域判别器的仅为真实数据集,而不包括伪造数据。这种方法的目的是将真实语音的分布聚合在一起,形成一个紧凑的特征集。

三元组损失

三元组损失函数:为了有效分离伪造语音的特征,ASDG采用了三元组损失函数。该损失函数通过选择一个锚点(真实样本)、一个正样本(同类真实样本)和一个负样本(伪造样本),来优化特征空间,使得真实样本之间的距离更近,而伪造样本则被推远。这种方法有助于在特征空间中形成清晰的分界,增强模型对伪造语音的识别能力。
三元组损失函数通常表示为:

其中:

  • a 是锚点样本(真实样本)
  • p 是正样本(同类真实样本)
  • n 是负样本(伪造样本)
  • d(x,y) 是样本 x 和 y 之间的距离
  • α 是一个超参数,表示边界阈值
对抗损失函数

对抗损失函数可以表示为:

其中:

  • D(x) 是判别器的输出,表示样本 x 为真实样本的概率
  • Preal​ 是真实样本的分布
  • Pfake​ 是伪造样本的分布
总损失函数

总损失函数可以表示为:

其中 λ 是平衡三元组损失和对抗损失的超参数。

理想特征空间

特征空间的构建:通过上述方法,ASDG旨在构建一个理想的特征空间,其中真实语音的特征聚集在一起,形成一个单一的簇,而伪造语音的特征则分散在更广泛的区域。这种特征空间的构建有助于提高模型在不同域和未见攻击上的泛化能力。

实验验证

跨域和噪声条件下的测试:为了验证ASDG的有效性,文章在多个不同的英语数据集上进行了训练,并在跨语言和噪声条件下进行了评估。实验结果显示,ASDG在跨域任务中显著优于基线模型,降低了等错误率(EER)达39.24%。

数据集分布


EER评估结果

贡献点

提出了一种聚合与分离的域泛化方法(ASDG),旨在提高音频深度伪造检测(ADD)的泛化能力。该方法通过聚合来自不同域的真实语音特征并分离伪造语音特征,构建了一个理想的特征空间。文章引入了三元组损失函数和单侧域对抗学习,显著提升了模型对伪造语音的识别能力。通过在多个英语数据集上的广泛实验,ASDG在跨域任务中表现优异,降低了等错误率(EER)达39.24%。这些贡献不仅增强了模型的性能,还为音频深度伪造检测领域提供了新的思路和可解释性,具有重要的研究价值。

文章来源:https://blog.csdn.net/Arthur_WangYu/article/details/145329647
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ppmy.cn/news/1568273.html

相关文章

深入理解Transformer中的解码器原理(Decoder)与掩码机制

前言 Hello,大家好,我是GISer Liu😁,一名热爱AI技术的GIS开发者,本系列文章是作者参加DataWhale2025年1月份学习赛,旨在讲解Transformer模型的理论和实践。😲 🙂本文将从Decoder&…

【HarmonyOS之旅】基于ArkTS开发(三) -> 兼容JS的类Web开发(二)

目录 1 -> HML语法 1.1 -> 页面结构 1.2 -> 数据绑定 1.3 -> 普通事件绑定 1.4 -> 冒泡事件绑定5 1.5 -> 捕获事件绑定5 1.6 -> 列表渲染 1.7 -> 条件渲染 1.8 -> 逻辑控制块 1.9 -> 模板引用 2 -> CSS语法 2.1 -> 尺寸单位 …

项目开发实践——基于SpringBoot+Vue3实现的在线考试系统(九)(完结篇)

文章目录 一、成绩查询模块实现1、学生成绩查询功能实现1.1 页面设计1.2 前端页面实现1.3 后端功能实现2、成绩分段查询功能实现2.1 页面设计2.2 前端页面实现2.3 后端功能实现二、试卷练习模块实现三、我的分数模块实现1、 页面设计2、 前端页面实现3、 后端功能实现四、交流区…

知识管理平台在数字经济时代推动企业智慧决策与知识赋能的路径分析

内容概要 在数字经济时代,知识管理平台被视为企业智慧决策与知识赋能的关键工具。其核心作用在于通过高效地整合、存储和分发企业内部的知识资源,促进信息的透明化与便捷化,使得决策者能够在瞬息万变的市场环境中迅速获取所需信息。这不仅提…

【识别代码截图OCR工具】

以下是一些支持识别代码截图且能较好地保留代码结构、不出现乱码的OCR工具,以及它们的具体网站: 1. Umi-OCR 特点:免费开源的离线OCR软件,支持截图OCR、批量OCR、PDF识别等功能。能够识别不同排版的文字,并按正确顺序…

自动驾驶---苏箐对智驾产品的思考

1 前言 对于更高级别的自动驾驶,很多人都有不同的思考,方案也好,产品也罢。最近在圈内一位知名的自动驾驶专家苏箐发表了他自己对于自动驾驶未来的思考。 苏箐是地平线的副总裁兼首席架构师,同时也是高阶智能驾驶解决方案SuperDri…

【2024年华为OD机试】 (C卷,200分)- 矩阵匹配(JavaScriptJava PythonC/C++)

一、问题描述 问题描述 给定一个大小为 ( N \times M )(( N \leq M ))的矩阵,从中选出 ( N ) 个数,要求任意两个数字不能在同一行或同一列。求选出来的 ( N ) 个数中第 ( K ) 大的数字的最小值。 输入描述 输入矩阵要求:( 1 \leq K \leq N \leq M \leq 150 )输入格式:…

拦截器快速入门及详解

拦截器Interceptor 快速入门 什么是拦截器? 是一种动态拦截方法调用的机制,类似于过滤器。 拦截器是Spring框架中提供的,用来动态拦截控制器方法的执行。 拦截器的作用:拦截请求,在指定方法调用前后,根…