第79期 | GPTSecurity周报

news/2024/12/24 8:36:36/

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。

Security Papers

1. TrojanWhisper:评估预训练的大语言模型以检测并定位硬件木马

简介:现有的硬件木马(HT)检测方法面临若干关键局限:逻辑测试在应对大型设计时存在可扩展性及覆盖范围方面的难题,侧信道分析需要黄金参考芯片,而形式验证方法会受到状态空间爆炸问题的困扰。大语言模型(LLM)的出现,凭借其自然语言理解和推理能力,为硬件木马检测提供了一个颇具前景的新方向。

本文首次探究了通用大语言模型在检测寄存器传输级(RTL)设计中插入的各类硬件木马(包括静态随机存取存储器、高级加密标准以及通用异步收发传输器模块)方面的潜力。为此,研究者提出了一种新颖的工具,该工具在无需事先微调的情况下,对最先进的大语言模型(GPT-4o、Gemini 1.5 pro 以及 Llama 3.1)检测硬件木马的能力进行系统性评估。为解决潜在的训练数据偏差问题,该工具采用了扰动技术,即变量名混淆和设计重构,这使得所使用的大语言模型面临的情况更为复杂。

研究者的实验评估表明,在基准场景下,GPT-4o 和 Gemini 1.5 pro 有着完美的检测率(精确率 / 召回率为 100%/100%),并且这两种模型在触发线路覆盖范围(TLC:0.82 - 0.98)方面比有效负载线路覆盖范围(PLC:0.32 - 0.46)表现更佳。在代码受到扰动的情况下,虽然 Gemini 1.5 pro 仍保持着完美的检测性能(100%/100%),但 GPT-4o(100%/85.7%)和 Llama 3.1(66.7%/85.7%)的检测率出现了一定程度的下降,而且所有模型在定位触发条件和有效负载方面的准确率均有所降低。本文验证了大语言模型方法应用于硬件安全领域的潜力,并着重指出了未来有待改进的方面。

链接:

https://arxiv.org/abs/2412.07636

2. 利用索引梯度对大语言模型进行基于优化的越狱攻击

简介:尽管在利用对齐技术训练大语言模型(LLM)以提升生成内容的安全性方面取得了进展,但这些模型仍然容易受到越狱攻击,这是一种能暴露大语言模型安全漏洞的对抗性攻击方法。值得注意的是,贪婪坐标梯度(GCG)方法已展现出能够自动生成可使最先进的大语言模型越狱的对抗性后缀的能力。然而,GCG 所涉及的优化过程极其耗时,这使得越狱流程效率低下。

在本文中,研究者对 GCG 的过程进行了研究,并确定了间接效应这一问题,它是 GCG 优化的关键瓶颈。为此,研究者提出了模型攻击梯度索引 GCG(MAGIC)方法,该方法通过利用后缀标记的梯度信息来解决间接效应问题,从而通过减少计算量和迭代次数来加快流程。研究者在 AdvBench 上开展的实验表明,MAGIC 实现了高达 1.5 倍的加速,同时保持了与其他基准方法相当甚至更高的攻击成功率(ASR)。研究者的 MAGIC 方法在 Llama - 2 模型上实现了 74% 的攻击成功率,在对 GPT - 3.5 进行迁移攻击时实现了 54% 的攻击成功率。

链接:

https://arxiv.org/abs/2412.08615

3. AdvPrefix: 一种用于精细的大语言模型越狱的目标

简介:许多针对大语言模型(LLM)的越狱攻击都依赖于一个常见目标:让模型以 “当然,以下是(有害请求)” 这一前缀进行回复。尽管这种方式简单直接,但该目标存在两个局限:对模型行为的控制有限,往往会导致回复不完整或不切实际;并且其刻板的格式阻碍了优化。

为解决这些局限,研究者引入了 AdvPrefix这一全新的强制前缀目标,它能够对模型行为进行更精细的控制,同时易于优化。研究者的这一目标利用了依赖于模型的前缀,这些前缀是基于两个标准自动选取的:较高的预填充攻击成功率以及较低的负对数似然。对于单个用户请求,通过使用多个前缀,它还能进一步简化优化过程。

AdvPrefix能够无缝融入现有的越狱攻击中,免费提升它们的性能。例如,在 Llama - 3 模型上,只需将贪婪坐标梯度(GCG)攻击的目标前缀替换为研究者的前缀,精细攻击成功率就能从 14% 提高到 80%,这表明当前的对齐方式很难泛化到未见过的前缀上。研究者的工作彰显了越狱目标在实现精细越狱方面的重要性。

链接:

https://arxiv.org/abs/2412.10321

4. FlexLLM: 探索针对黑盒大语言模型越狱攻击的移动目标防御的大语言模型定制方法

简介:大语言模型(LLM)的防御对于对抗众多攻击者至关重要,这些攻击者会通过操纵提示语(即所谓的越狱攻击)来利用这些系统生成有害内容。尽管已经提出了许多防御策略,但它们往往需要访问模型的内部结构或者需要额外的训练,这对于使用大语言模型应用程序编程接口(如 OpenAI 接口或 Claude 接口)的服务提供商来说是不切实际的。

在本文中,研究者提出了一种移动目标防御方法,该方法通过改变解码超参数来增强模型对各类越狱攻击的鲁棒性。研究者的方法无需访问模型的内部结构,也不会产生额外的训练成本。所提出的防御包含两个关键部分:(1)通过识别并调整影响词元生成概率的解码超参数来优化解码策略;(2)将解码超参数和模型系统提示语转变为动态目标,使其在每次运行期间都能不断变化。

通过持续修改解码策略和提示语,这种防御能够有效地减轻现有攻击的影响。研究者的研究结果表明,当将大语言模型作为黑盒应用程序编程接口使用时,在测试的三个模型中,研究者所提出的防御方法对越狱攻击最为有效。此外,研究者的防御方法推理成本更低,并且能保持相当的回复质量,使其在与其他防御方法一同使用时可成为潜在的一层保护手段。

链接:

https://arxiv.org/abs/2412.07672

5. 用于时间序列预测的大语言模型中的对抗性漏洞

简介:大语言模型(LLM)近期在时间序列预测领域展现出了巨大潜力,在处理复杂的时间序列数据方面具备令人瞩目的能力。然而,它们在现实世界应用中的鲁棒性和可靠性仍未得到充分探究,尤其是在面对对抗性攻击时的易受攻击性方面。

在本文中,研究者针对基于大语言模型的时间序列预测引入了一种定向对抗攻击框架。通过运用无梯度和黑盒优化方法,研究者生成了微小但极为有效的扰动,这些扰动会显著降低多个数据集以及不同大语言模型架构下的预测准确性。研究者的实验涵盖了诸如 TimeGPT、基于 GPT-3.5、GPT-4、LLaMa 和 Mistral 的 LLM-Time 等模型,实验结果表明,对抗性攻击导致的性能下降远比随机噪声造成的更为严重,并且证明了研究者的攻击方法在不同大语言模型中的广泛有效性。这些结果凸显了大语言模型在时间序列预测方面的关键脆弱性,强调了需要强有力的防御机制以确保它们能在实际应用中可靠部署。

链接:

https://arxiv.org/abs/2412.08099


http://www.ppmy.cn/news/1557693.html

相关文章

WebRTC服务质量(09)- Pacer机制(01) 流程概述

一、前言: Pacer 是一种数据发送调度机制。它的主要功能是根据网络带宽限制、网络拥塞控制的反馈以及媒体的发送策略,对数据包的发送进行适配和节奏调度,以避免网络拥塞、减少丢包并保证流媒体传输的平滑性。 二、核心概念: 2.…

每天40分玩转Django:Django文件上传

Django文件上传 一、今日学习内容概述 学习模块重要程度主要内容基础文件上传⭐⭐⭐⭐⭐文件字段、基本配置自定义存储⭐⭐⭐⭐⭐存储后端、云存储集成文件处理⭐⭐⭐⭐图片处理、文件验证异步上传⭐⭐⭐⭐AJAX上传、进度显示 二、模型和表单设计 # models.py from django.…

Android OpenGLES2.0开发(十):FBO离屏渲染

人生是一场单程的旅行,即使有些遗憾我们也没有从头再来的机会,与其纠结无法改变的过去不如微笑着珍惜未来。 Android OpenGLES开发:EGL环境搭建Android OpenGLES2.0开发(一):艰难的开始Android OpenGLES2.0…

面向对象 类函数的区别 实例方法 类方法 静态方法 抽象方法

前言:面向对象类方法的说明: 实例方法 定义:实例方法是在类中定义的,用于操作类的实例(对象)的属性和行为的方法。它的第一个参数通常是self(在 Python 中)或this(在 Jav…

#渗透测试#漏洞挖掘#红蓝攻防#护网#sql注入介绍06-基于子查询的SQL注入(Subquery-Based SQL Injection)

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停…

基于字节大模型的论文翻译(含免费源码)

基于字节大模型的论文翻译 源代码: 👏 star ✨ https://github.com/boots-coder/LLM-application 展示 项目简介 本项目是一个基于大语言模型(Large Language Model, LLM)的论文阅读与翻译辅助工具。它通过用户界面&#xff08…

【Django篇】--动手实践Django基础知识

一、url视图映射 在url.py中定义两个视图函数,并添加到urlpatterns中用于访问。 from django.contrib import admin from django.urls import path from django.shortcuts import HttpResponse# 默认的地址为:http://127.0.0.1:8000/# 如果我想要访问默…

Java 8使用Stream流去除一个list中包含另一个list已存在的某个字段的对象

项目场景: 在Java中,我们经常会遇到需要对List中的数据进行操作的情况。有时候,我们需要从一个List中删除另一个List已经包含的数据。这种情况下,我们可以使用Java Stream来简洁高效地完成操作。 代码示例 假设我们有两个对象列表…