【论文阅读】distilling cognitive backdoor patterns within an image

news/2025/2/28 10:19:44/

本文是输入级别的后门检测

认知蒸馏(Cognitive Distillation, CD)用于提取和检测图像中的后门模式。

其核心思想是从输入图像中提取出对模型预测起决定性作用的“最小本质”。CD通过优化输入掩码,从输入图像中提取出一个小的模式,该模式能够导致模型输出相同的结果(例如,特征、logits或概率)。提取出的模式有助于理解模型在干净图像与后门图像上的认知机制,因此被称为认知模式(Cognitive Pattern, CP)。

通过CD和提取出的CPs,我们发现了一个有趣的现象:尽管不同攻击使用的触发器模式形式和大小各异,但后门样本的CPs却异常且可疑地小。这表明后门模式与后门标签之间的关联远比自然关联简单。因此,我们可以利用学习到的掩码来检测并从受污染的训练数据集中移除后门样本。

在本文中,我们提出了一种输入信息解耦方法,称为认知蒸馏(Cognitive Distillation, CD),用于提取输入图像中决定模型输出(例如特征、logits和概率)的最小模式。这一想法受到输入图像中既有有用特征也有无用特征这一事实的启发(Ilyas et al., 2019)。直观上,如果通过某种优化过程移除无用特征,有用的特征将被揭示出来,从而有助于理解原始输入的隐藏识别机制。CD通过优化输入掩码来移除输入中的冗余信息,同时确保模型仍然产生相同的输出。提取出的模式被称为认知模式(Cognitive Pattern, CP),直观上,它包含了模型预测所需的最小充足信息。

通过CD,我们发现了一个有趣的现象: 尽管大多数攻击使用的触发器模式覆盖整个图像,但后门样本的CPs异常且可疑地小。这表明后门模式与后门标签之间的关联远比自然关联简单。 因此,小的触发器模式可能足以进行有效的后门攻击。这一现有后门攻击的共同特征促使我们利用学习到的掩码来检测后门样本。此外,提取出的CPs和学习到的掩码可视化了不同攻击如何转移后门模型的注意力。

CD是自监督的

认知蒸馏

在这里插入图片描述
在这里插入图片描述
如图 1a 的第一列所示,后门模型上干净图像的掩码和 CP 较大且与主要对象语义相关。显然,模型似乎在利用图像中的真实内容进行预测。对于使用小补丁或分散像素作为触发模式的 3 种攻击(BadNets、Trojan 和 Dynamic),后门图像的 CP 揭示了它们的触发模式,掩码则突出了触发的关键部分。

其他 8 种攻击均采用全图像大小的触发模式,但它们的 CP 都异常小(在幅度上)、稀疏(分散的像素)且语义上无意义(偏离主要对象)。这表明模型确实在使用后门特征来预测类别标签。有趣的是,结果显示即使触发模式覆盖整个图像,推理过程中也仅涉及触发模式的一小部分。模型似乎不仅忽略了真实内容,还忽略了触发模式的大部分。我们推测这是因为后门相关性本质上比自然相关性更简单,因此模型不需要记住整个触发模式来学习后门相关性。相反,它倾向于从触发模式中找到最简单的线索来完成后门任务。这些简单的相关性在推理时绕过了对真实内容的感知,只要触发模式出现即可。

在这里插入图片描述

简化触发模式的攻击成功率(ASR)与原始触发模式的比较如图 1b 所示。显然,每个触发模式都可以被简化而不会(显著)降低 ASR。有趣的是,简化触发模式甚至略微提高了 FC、SIG 和 WaNet 攻击的 ASR。

总结来说,上述发现揭示了后门攻击的一个共同特征:无论触发模式如何,后门相关性都比自然相关性简单得多。因此,可以利用我们的 CD 蒸馏出的掩码大小来检测后门样本。

方法

t为 通过掩码大小来判断是否存在后门的 阈值

阈值确定:
在这里插入图片描述

证明提出的方法 对不同后门攻击 检测 的可行性
在这里插入图片描述


http://www.ppmy.cn/news/1575478.html

相关文章

【LLM】本地部署LLM大语言模型+可视化交互聊天,附常见本地部署硬件要求(以Ollama+OpenWebUI部署DeepSeekR1为例)

【LLM】本地部署LLM大语言模型可视化交互聊天,附常见本地部署硬件要求(以OllamaOpenWebUI部署DeepSeekR1为例) 文章目录 1、本地部署LLM(以Ollama为例)2、本地LLM交互界面(以OpenWebUI为例)3、本…

关于“你对 Spring Cloud 的理解”详细讲解?

Spring Cloud 是一系列框架的集合,它基于 Spring Boot 实现,为构建微服务架构提供了丰富的工具和解决方案。以下是对 Spring Cloud 的详细理解: 核心功能 服务治理: 服务注册与发现:Spring Cloud Netflix 中的 Eureka…

es 写入数据的工作原理是什么啊?es 查询数据的工作原理是什么啊?底层的 lucene 介绍一下呗?倒排索引了解吗?

Elasticsearch 写入数据的工作原理 1. 写入流程概述 当客户端向 Elasticsearch 发送写入请求时,会经历以下步骤: 客户端选择一个节点 作为 coordinating node(协调节点),发送请求。协调节点对文档进行路由&#xff…

Photoshop EXIF 脚本

以下代码用ANSI编码保存到 C:\Program Files\Adobe\Adobe Photoshop 2025\Presets\Scripts\AddEXIFFrame.jsx 打开Photoshop,会看到 效果图: 大的文件会自动缩放到小边2000像素。 #target photoshop// covert "2025:02:20 13:11:21" to 2025…

基于Python+django+mysql旅游数据爬虫采集可视化分析推荐系统

2024旅游推荐系统爬虫可视化(协同过滤算法) 基于Pythondjangomysql旅游数据爬虫采集可视化分析推荐系统 有文档说明 部署文档 视频讲解 ✅️基于用户的协同过滤推荐算法 卖价就是标价~ 项目技术栈 Python语言、Django框架、MySQL数据库、requests网络爬虫…

测试的基本概念

需求 需求分为两部分: 用户需求: 可以简单归为甲方提出的要求,或者终端用户使用产品时必须要完成的任务 软件需求: 功能需求,会详细描述开发人员必须实现的软件功能,是测试人员进行测试工作的基本依据 开发模型 当软件工作的范围逐步扩展到了整个软件生命周期,例如软件基本…

小米和华为的需求管理及产品策划

小米与华为在消费者需求洞察和产品策划领域形成了独特的方法论体系,以下基于公开资料及企业白皮书内容,系统梳理其核心框架与实施工具: 一、市场调研方法论 (1)用户需求洞察体系 小米「用户痛点三筛法」(…

IDEA-插件开发踩坑记录-第六坑-UAST依赖问题

背景 简要说明: UAST – Unified Abstract Syntax Tree UAST (Unified Abstract Syntax Tree) is an abstraction layer on the PSI of different programming languages targeting the JVM (Java Virtual Machine). It provides a unified API for working with co…