第79期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. TrojanWhisper：评估预训练的大语言模型以检测并定位硬件木马

简介：现有的硬件木马（HT）检测方法面临若干关键局限：逻辑测试在应对大型设计时存在可扩展性及覆盖范围方面的难题，侧信道分析需要黄金参考芯片，而形式验证方法会受到状态空间爆炸问题的困扰。大语言模型（LLM）的出现，凭借其自然语言理解和推理能力，为硬件木马检测提供了一个颇具前景的新方向。

本文首次探究了通用大语言模型在检测寄存器传输级（RTL）设计中插入的各类硬件木马（包括静态随机存取存储器、高级加密标准以及通用异步收发传输器模块）方面的潜力。为此，研究者提出了一种新颖的工具，该工具在无需事先微调的情况下，对最先进的大语言模型（GPT-4o、Gemini 1.5 pro 以及 Llama 3.1）检测硬件木马的能力进行系统性评估。为解决潜在的训练数据偏差问题，该工具采用了扰动技术，即变量名混淆和设计重构，这使得所使用的大语言模型面临的情况更为复杂。

研究者的实验评估表明，在基准场景下，GPT-4o 和 Gemini 1.5 pro 有着完美的检测率（精确率 / 召回率为 100%/100%），并且这两种模型在触发线路覆盖范围（TLC：0.82 - 0.98）方面比有效负载线路覆盖范围（PLC：0.32 - 0.46）表现更佳。在代码受到扰动的情况下，虽然 Gemini 1.5 pro 仍保持着完美的检测性能（100%/100%），但 GPT-4o（100%/85.7%）和 Llama 3.1（66.7%/85.7%）的检测率出现了一定程度的下降，而且所有模型在定位触发条件和有效负载方面的准确率均有所降低。本文验证了大语言模型方法应用于硬件安全领域的潜力，并着重指出了未来有待改进的方面。

链接：

https://arxiv.org/abs/2412.07636

2. 利用索引梯度对大语言模型进行基于优化的越狱攻击

简介：尽管在利用对齐技术训练大语言模型（LLM）以提升生成内容的安全性方面取得了进展，但这些模型仍然容易受到越狱攻击，这是一种能暴露大语言模型安全漏洞的对抗性攻击方法。值得注意的是，贪婪坐标梯度（GCG）方法已展现出能够自动生成可使最先进的大语言模型越狱的对抗性后缀的能力。然而，GCG 所涉及的优化过程极其耗时，这使得越狱流程效率低下。

在本文中，研究者对 GCG 的过程进行了研究，并确定了间接效应这一问题，它是 GCG 优化的关键瓶颈。为此，研究者提出了模型攻击梯度索引 GCG（MAGIC）方法，该方法通过利用后缀标记的梯度信息来解决间接效应问题，从而通过减少计算量和迭代次数来加快流程。研究者在 AdvBench 上开展的实验表明，MAGIC 实现了高达 1.5 倍的加速，同时保持了与其他基准方法相当甚至更高的攻击成功率（ASR）。研究者的 MAGIC 方法在 Llama - 2 模型上实现了 74% 的攻击成功率，在对 GPT - 3.5 进行迁移攻击时实现了 54% 的攻击成功率。

链接：

https://arxiv.org/abs/2412.08615

3. AdvPrefix: 一种用于精细的大语言模型越狱的目标

简介：许多针对大语言模型（LLM）的越狱攻击都依赖于一个常见目标：让模型以 “当然，以下是（有害请求）” 这一前缀进行回复。尽管这种方式简单直接，但该目标存在两个局限：对模型行为的控制有限，往往会导致回复不完整或不切实际；并且其刻板的格式阻碍了优化。

为解决这些局限，研究者引入了 AdvPrefix这一全新的强制前缀目标，它能够对模型行为进行更精细的控制，同时易于优化。研究者的这一目标利用了依赖于模型的前缀，这些前缀是基于两个标准自动选取的：较高的预填充攻击成功率以及较低的负对数似然。对于单个用户请求，通过使用多个前缀，它还能进一步简化优化过程。

AdvPrefix能够无缝融入现有的越狱攻击中，免费提升它们的性能。例如，在 Llama - 3 模型上，只需将贪婪坐标梯度（GCG）攻击的目标前缀替换为研究者的前缀，精细攻击成功率就能从 14% 提高到 80%，这表明当前的对齐方式很难泛化到未见过的前缀上。研究者的工作彰显了越狱目标在实现精细越狱方面的重要性。

链接：

https://arxiv.org/abs/2412.10321

4. FlexLLM: 探索针对黑盒大语言模型越狱攻击的移动目标防御的大语言模型定制方法

简介：大语言模型（LLM）的防御对于对抗众多攻击者至关重要，这些攻击者会通过操纵提示语（即所谓的越狱攻击）来利用这些系统生成有害内容。尽管已经提出了许多防御策略，但它们往往需要访问模型的内部结构或者需要额外的训练，这对于使用大语言模型应用程序编程接口（如 OpenAI 接口或 Claude 接口）的服务提供商来说是不切实际的。

在本文中，研究者提出了一种移动目标防御方法，该方法通过改变解码超参数来增强模型对各类越狱攻击的鲁棒性。研究者的方法无需访问模型的内部结构，也不会产生额外的训练成本。所提出的防御包含两个关键部分：（1）通过识别并调整影响词元生成概率的解码超参数来优化解码策略；（2）将解码超参数和模型系统提示语转变为动态目标，使其在每次运行期间都能不断变化。

通过持续修改解码策略和提示语，这种防御能够有效地减轻现有攻击的影响。研究者的研究结果表明，当将大语言模型作为黑盒应用程序编程接口使用时，在测试的三个模型中，研究者所提出的防御方法对越狱攻击最为有效。此外，研究者的防御方法推理成本更低，并且能保持相当的回复质量，使其在与其他防御方法一同使用时可成为潜在的一层保护手段。

链接：

https://arxiv.org/abs/2412.07672

5. 用于时间序列预测的大语言模型中的对抗性漏洞

简介：大语言模型（LLM）近期在时间序列预测领域展现出了巨大潜力，在处理复杂的时间序列数据方面具备令人瞩目的能力。然而，它们在现实世界应用中的鲁棒性和可靠性仍未得到充分探究，尤其是在面对对抗性攻击时的易受攻击性方面。

在本文中，研究者针对基于大语言模型的时间序列预测引入了一种定向对抗攻击框架。通过运用无梯度和黑盒优化方法，研究者生成了微小但极为有效的扰动，这些扰动会显著降低多个数据集以及不同大语言模型架构下的预测准确性。研究者的实验涵盖了诸如 TimeGPT、基于 GPT-3.5、GPT-4、LLaMa 和 Mistral 的 LLM-Time 等模型，实验结果表明，对抗性攻击导致的性能下降远比随机噪声造成的更为严重，并且证明了研究者的攻击方法在不同大语言模型中的广泛有效性。这些结果凸显了大语言模型在时间序列预测方面的关键脆弱性，强调了需要强有力的防御机制以确保它们能在实际应用中可靠部署。

链接：

https://arxiv.org/abs/2412.08099