【论文精读】DiffAttack:难以察觉和可转移的对抗性攻击的扩散模型

ops/2024/10/16 2:22:25/

文章目录

  • 一、文章概览
    • (一)研究动机
    • (二)扩散模型
    • (三)文章工作
  • 二、模型方法
  • 三、实验
    • (一)实验设置
    • (二)正常训练模型的可转移性和不可察觉性比较
    • (三)防御方法的结果
    • (四)消融实验


一、文章概览

(一)研究动机

  • 深度神经网络对于精心设计的颠覆(“对抗性”)具有较强的敏感性,可能会在实际应用中引发严重错误,因此需要加大对于对抗性攻击的研究;
  • 黑盒攻击相对于白盒攻击而言更接近现实世界的场景,因此也更具有研究价值;
  • 现有的方法大多采用RGB颜色空间中的Lp范数来衡量扰动的大小,并且取得了一定的成功,但它们仍然存在一些问题:
    • Lp范数并不适合用来衡量图像之间的感知距离,因为它不能很好地模拟人类感知的差异。
    • 生成的扰动仍然很容易被人眼察觉
    • 尽管这些攻击方法可能在原始模型上表现良好,但它们往往在将对抗性样本传递给其他黑盒模型时效果不佳
    • 基于Lp范数的对抗攻击也容易受到一些防御机制的影响
      在这里插入图片描述
  • 最新的研究表明,可以通过新的方法来欺骗人类感知,而不必受限于Lp范数的约束,这被称为不受限制的攻击。无限制攻击产生的扰动更多地关注具有高级语义的相对大规模的模式,而不是操纵像素级强度,因此有利于攻击可转移到其他黑盒模型,甚至是被防御的模型。然而,这些方法的可转移性仍然落后于基于像素的方法。

(二)扩散模型

将扩散模型引入对抗性攻击领域的动机主要源于它的两个有益特性:

  • 良好的隐蔽性。扩散模型最初是为图像合成而设计的,倾向于生成符合人类感知的自然图像。这种固有的品质与对抗性攻击的不可察觉性要求非常吻合。此外,扩散模型中的迭代降噪过程有助于减少可感知的高频噪声。
  • 隐式代理的近似。尽管最初是为图像合成而设计的,但在大规模数据集上训练的扩散模型表现出了显着的判别能力。此功能使我们能够将它们近似为基于传输的攻击的隐式代理模型。利用这种“隐式代理”,我们可以潜在地增强跨不同模型和防御的可转移性。此外,扩散模型的去噪过程类似于强大的净化防御,可以进一步增强我们针对防御机制的攻击的有效性。

(三)文章工作

  • 是第一个揭示扩散模型凭借其卓越的生成和隐式判别能力,为创建具有高度不可察觉性和可转移性的对抗性例子。
  • 提出DiffAttack,一种新颖的无限制攻击,其中通过仔细的设计利用了扩散模型的良好特性。通过利用交叉和自注意力图并攻击扩散模型的潜力,DiffAttack 既不可察觉又可转移。
  • 对各种模型架构、数据集和防御方法进行的广泛实验证明了文章的工作相对于现有攻击方法的优越性。

二、模型方法

(一)问题表述

给定一个干净的图像 x 及其相应的标签 y,攻击者的目标是制造扰动,使分类器 Fθ(θ 表示模型的参数)的决策从正确变为错误:
在这里插入图片描述

(二)核心思想

提出了一种基于扩散模型的新型无限制攻击:优化现成的预训练扩散模型的潜力

  • 建立了一个基本的攻击框架,该框架最初将干净的图像转换为噪声,然后在潜在空间中引入修改。这与现有的图像编辑技术不同,后者操纵引导文本来实现内容编辑。相反,我们直接对扩散模型的潜力进行操作,这可以显着提高攻击的成功率。
  • 其次,我们建议偏离文本和图像像素之间的交叉注意力图,通过这种方式,我们可以将扩散模型转换为实际上可以被欺骗和攻击的隐式代理模型。
  • 最后,为了避免扭曲最初的语义,具体考虑了包括自注意力约束和反转强度在内的措施。

(三)具体框架

1、DDIM反演技术

DiffAttack框架结合了稳定扩散预训练模型和DDIM反演技术,利用了图像编辑的思想,从而实现了对抗攻击的生成过程。

DDIM反演技术(DDIM Inversion technology)是一种基于扩散过程的反向映射技术。简单来说,这种技术可以将干净的图像映射回扩散的潜空间,实现从原始图像到扩散潜空间的逆向转换过程。这样一来,可以在潜空间中对图像进行修改,然后再将修改后的图像映射回原始图像空间,从而实现对抗攻击的目的。

在这里插入图片描述
对从 x0(初始图像)到 xt 的几个时间步应用DDIM反演操作。如果我们对 xt 进行确定性去噪过程,则可以预期 x0 的高质量重建:
在这里插入图片描述

2、扰乱扩散模型中潜在的 x t x_t xt

许多现有的图像编辑技术通过操纵引导文本来实现内容编辑,但是这种方法的可迁移性较弱。因此,文章直接扰乱扩散模型潜在的xt,这可以显着提高攻击的成功率。

在这里插入图片描述

3、偏离文本和图像像素之间的交叉注意力图

在反向潜在变量的重建过程中,交叉注意力图显示了引导文本和图像像素之间的强关系,这证明了预训练扩散模型的潜在识别能力。因此,在海量数据上训练的扩散模型可以近似为隐式识别模型,如果我们精心设计的攻击可以“欺骗”这个模型,我们可以期望提高向其他黑盒的可转移性楷模。

这里交叉注意力中文本和像素之间有很强的关系,而自注意力可以很好地揭示结构。
在这里插入图片描述

为了“欺骗”预训练的扩散模型,我们建议最小化以下公式:

在这里插入图片描述
其中Var(·)计算输入的方差,Cross(·)表示去噪过程中所有交叉注意力图的累加,SDM是稳定扩散。其目的是分散扩散模型对标记对象的注意力。通过将注意力均匀地分配到每个像素,我们可以破坏原始的语义关系,确保我们精心设计的对抗性示例能够很好地“欺骗”扩散模型。通过这样的设计,DiffAttack 表现出了隐式的集成特性。

4、内容结构的保护

自注意力控制:

  • 扩散模型的自注意会捕获结构信息,忽略图像外观,因此文章建议利用自注意力图来保留结构。
  • 设置一个反向潜在变量的副本 x t ( f i x ) x_{t(fix)} xt(fix),它是固定的,没有扰动。通过分别计算 x t ( f i x ) x_{t(fix)} xt(fix) x t x_{t} xt的自注意力图(记为 S t ( f i x ) S_{t(fix)} St(fix) S t S_t St),迫使 S t S_t St 接近 S t ( f i x ) S_{t(fix)} St(fix)
    在这里插入图片描述

反转强度权衡:

DDIM反演强度过高会影响较多的去噪步骤从而导致严重的失真
DDIM反演强度过低又无法提供足够的攻击空间

扩散模型倾向于在早期的去噪步骤中添加粗略的语义信息(例如布局),而在后期的步骤中添加更精细的细节。因此,文章控制去噪过程后面的反转以保留高级语义,并减少总 DDIM 样本步骤以获得更多编辑空间。

DiffAttack的最终目标函数:
在这里插入图片描述

三、实验

(一)实验设置

数据集: ImageNet-Compatible Dataset2 ,之后在 CUB-200-2011和斯坦福汽车上进行了进一步的实验。

模型: 评估了攻击在各种网络结构(包括 CNN、Transformers 和 MLP)中的可转移性。

  • CNN: ConvNeXt、ResNet-50 (Res-50)、VGG-19 、Inception-v3 (Inc-v3)和 MobileNet-v2(Mob-v2)。
  • Transformers:ViT-B/16 (ViT-B) 、Swin-B、DeiT-B 和 DeiT-S 。
  • MLP:Mixer-B/16 (Mix-B) 和 Mixer-L/16 (Mix-L) 。

此外考虑了各种防御方法,包括 DiffPure 、RS (Jia et al., 2020)、R&P 、HGD、 NIPS-r3、NRP,和对抗训练模型(Adv-Inc-v3、Inc-v3ens3、Inc-v3ens4 和 IncRes-v2ens)。

实施细节: 利用 DDIM作为stable-diffusion的采样器。步骤数设置为 20,对初始干净图像应用 5 个 DDIM 反转步骤。在反演过程中,引导尺度设置为0,而在去噪过程中,我们将其设置为2.5。为了优化潜在 xt,我们采用 AdamW,学习率设置为 1e−2,迭代次数设置为 30。方程中的权重因子 α、β、γ。 6分别设置为10、10000、100。所有实验均在单个 RTX 3090 GPU 上运行。

评估指标: top-1 准确率用于评估攻击方法的性能,Frechet 起始距离 (FID)作为精心设计的对抗性示例的人类不可感知性的指标。完整参考指标 LPIPS也用于评估感知差异。

(二)正常训练模型的可转移性和不可察觉性比较

将 DiffAttack 在正常训练模型上的性能与其他基于转移的黑盒攻击进行了比较。
在这里插入图片描述
与 MI-FGSM、DI-FGSM、TI-FGSM、PIFGSM 和 S2I-FGSM 相比,文章的攻击更加难以察觉,其中存在容易被察觉的高频噪声。与NCF相比,DiffAttack在色彩空间上更加自然。对于PerC-AL来说,虽然攻击很难被察觉,但如上所述,其可转移性是最差的。因此,文章方法的优越性得到了很好的验证。
在这里插入图片描述

(三)防御方法的结果

从结果中可以看出,当应用一些防御措施时,文章的方法可以实现良好的鲁棒性并且优于其他方法。
在这里插入图片描述

(四)消融实验

表3探究了提示引导、文章的潜在扰动方法和扩散模型中的去噪过程对于可转移性的有效性。表 4 中的结果验证了文章结构保留设计的有效性。随着反演强度和self-attention的控制,FID结果逐渐改善。图5中可视化了结构消融,可以明显地显示出视觉上的改善。可以看出,反转强度的控制有助于保留结构,并且自注意力图的使用可以确保更好的纹理。

在这里插入图片描述


http://www.ppmy.cn/ops/12461.html

相关文章

unity 录制360全景渲染图

1.打开pakcageManager ,选择packages为 unityRegisty,找到unityRecorder插件下载,点击右下角instant安装,如果插件列表为空,检查是否连接网络,重启Unity 2.打开录制面板 3.add recorder 选择ImageSequence …

上位机图像处理和嵌入式模块部署(树莓派4b与视觉slam十四讲)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 实际使用中,树莓派4b是非常好的一个基础平台。本身板子价格也不是很贵,建议大家多多使用。之前关于vslam,也就是…

基于Kepware的Hadoop大数据应用构建-提升数据价值利用效能

背景 Hadoop是一个由Apache基金会所开发的分布式系统基础架构,它允许用户在不需要深入了解分布式底层细节的情况下,开发分布式程序。Hadoop充分利用集群的威力进行高速运算和存储,特别适用于处理超大数据集。 Hadoop的生态系统非常丰富&…

git使用技巧记录

在Git中,如果您想要丢弃最近的提交并还原修改至提交前的状态,可以使用以下几种不同的方法,取决于您是否希望保留工作区的修改还是彻底还原到提交前的工作区和暂存区状态:1. 保留工作区的修改,仅撤销最近的提交&#xf…

jvm知识点总结(一)

JVM的跨平台 java程序一次编写到处运行。java文件编译生成字节码,jvm将字节码翻译成不同平台的机器码。 JVM的语言无关性 JVM只是识别字节码,和语言是解耦的,很多语言只要编译成字节码,符合规范,就能在JVM里运行&am…

基础安全:CSRF攻击原理与防范

CSRF的概念 CSRF(Cross-Site Request Forgery)中文名为“跨站请求伪造”。这是一种常见的网络攻击手段,攻击者通过构造恶意请求,诱骗已登录的合法用户在不知情的情况下执行非本意的操作。这种攻击方式利用了Web应用程序中用户身份…

单片机使用循环来实现延时和定时器延时的区别是什么?

循环延时是一种简单的实现方式,但由于资源占用和精确度的限制。我这里有一套嵌入式入门教程,不仅包含了详细的视频 讲解,项目实战。如果你渴望学习嵌入式,不妨点个关注,给个评论222,私信22,我在…

【黑马点评Redis——003优惠券秒杀3——Redisson】

1.什么是Redisson Redisson是一个在Redis的基础上实现的Java驻内存数据网格(在Redis基础上实现的分布式工具),它不仅提供了一系列的分布式的Java常用对象,还提供了许多分布式服务,其中就包含了各种分布式锁的实现。 1…