第74期 | GPTSecurity周报

GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。

Security Papers

1. 大语言模型的可转移集成黑盒越狱攻击

简介：研究者在本报告中提出了一种新颖的黑盒越狱攻击框架，此框架融合了多种以语言模型为攻击者的方法，以发起可转移且威力强大的越狱攻击。研究者设计该方法是基于对现有越狱研究和实践的三个关键观察结果。

研究者首先认为，相较于单独攻击，集成方法在暴露已对齐大语言模型的漏洞方面应更具效力。其次，不同的恶意指令在越狱难度上本就存在差异，所以需要区别对待，以此确保攻击更高效。最后，恶意指令的语义连贯性对于触发已对齐大语言模型的防御极为关键，因此，必须谨慎地破坏其嵌入表示，进而提高越狱成功率。

研究者通过参与2024年大语言模型和智能体安全竞赛对该方法进行了验证，其所在团队在越狱攻击赛道中取得了最佳成绩。

链接：

https://arxiv.org/abs/2410.23558

2. HijackRAG：针对检索增强型大语言模型的劫持攻击

简介：检索增强生成（RAG）系统通过集成外部知识来增强大语言模型（LLM），使其对各种应用具有适应性和成本效益。然而，对这些系统的日益依赖也引入了潜在的安全风险。在这项工作中，我们揭示了一个新颖的漏洞，检索提示劫持攻击（HijackRAG），它使攻击者能够通过将恶意文本注入知识数据库来操纵 RAG 系统的检索机制。当 RAG 系统遇到目标问题时，它会生成攻击者预先确定的答案，而不是正确的答案，破坏了系统的完整性和可信度。我们将 HijackRAG 形式化为一个最佳化问题，并提出了针对攻击者不同知识水平量身定制的黑盒和白盒攻击策略。对多个基准数据集的广泛实验表明，HijackRAG 始终如一地实现了高攻击成功率，优于现有的基线攻击。此外，我们证明了攻击可以跨不同的检索器模型转移，强调了它对 RAG 系统构成的广泛风险。最后，我们对各种防御机制的探索表明，它们不足以对抗 HijackRAG，强调迫切需要更强大的安全措施来保护现实世界部署中的 RAG 系统。

链接：

https://arxiv.org/abs/2410.22832

3. 针对域名生成算法（DGA）和 DNS 数据泄露检测的大语言模型微调

简介：研究者指出，域名生成算法（DGA）是恶意软件用于动态生成看似随机域名的恶意技术，这些域名被用于和命令与控制（C&C）服务器通信。由于 DGA 域名生成快速且简便，所以检测方法必须高效且精准才有效。大语言模型（LLM）在实时检测任务中已经展现出了它的能力，这让它成为检测 DGA 的理想对象。

研究者开展的工作验证了经过微调的大语言模型在检测 DGA 和 DNS 数据泄露攻击方面的有效性。研究者开发了大语言模型，并使用一个多样化的数据集进行了全面评估，该数据集包含 59 个不同的真实世界 DGA 恶意软件家族数据和正常域名数据。研究者的大语言模型明显优于传统自然语言处理技术，特别是在检测未知 DGA 方面表现出色。

此外，研究者还在 DNS 数据泄露数据集上评估了模型的性能，证实了它在增强网络安全措施方面的有效性。据研究者所知，这是首次将大语言模型实证性地应用于 DGA 和 DNS 数据泄露检测的工作。

链接：

https://arxiv.org/abs/2410.21723

4. FATH：基于身份验证的针对间接提示注入攻击的测试时防御

简介：研究者在本文中引入了一种新颖的测试时防御策略，即基于哈希标签的格式化身份验证（FATH）。与现存那些防止大语言模型对外部文本中的附加指令予以回应的方法有所不同，研究者的方法构建了一个身份验证系统。该系统要求大语言模型依据安全策略回答所有接收到的指令，并且有选择性地对用户指令的响应进行过滤，将其作为最终输出。

为达成这一目标，研究者利用基于哈希的身份验证标签来对每个响应进行标记，这样便于依据用户指令准确地识别响应内容，同时提升对自适应攻击的抵御能力。通过全面的实验，研究者发现这种防御方法能够有效抵御间接提示注入攻击，在 Llama3 和 GPT3.5 模型下，针对各类攻击方法，该方法都达到了当前最先进的性能水平。

链接：

https://arxiv.org/abs/2410.21492

5. 微调后的大语言模型（LLMs）：改进的提示注入攻击检测

简介：研究者发现，大语言模型（LLMs）在处理各类语言任务的能力大幅提升后，正逐渐成为热门工具。不过，大语言模型应用极易遭受提示注入攻击，这是个严峻的问题。这种攻击利用精心设计的输入提示来针对大语言模型应用，使模型背离原始指令，进而执行意料之外的操作。这些攻击行为构成了严重的安全威胁，可能引发数据泄露、输出偏差或有害响应等情况。

在这个项目中，研究者对与提示注入攻击相关的安全漏洞展开了探究。为检测提示是否存在漏洞，研究者采取了两种途径：一是使用预训练的大语言模型，二是使用经过微调的大语言模型。之后，研究者对分类性能进行了全面的分析与对比。

起初，研究者使用预训练的 XLM - RoBERTa 模型，在不对测试数据集进行任何微调的情况下检测提示注入，并通过零样本分类来评估。接着，研究者在这项研究工作中，使用来自 huggingface 的 deepset 的特定任务标记数据集，对这个预训练的大语言模型进行有监督的微调。经过严格的实验和评估，这个微调后的模型效果惊人，准确率高达 99.13%、精确率达 100%、召回率达 98.33%、F1 值达 99.15%。研究者由此得出，这种方法在检测提示注入攻击方面效率极高。

链接：

https://arxiv.org/abs/2410.21337

6. 通过良性数据镜像对大语言模型进行隐蔽越狱攻击

简介：研究者指出，大语言模型（LLM）的安全性是关键问题，大量研究通过红队测试提升模型安全性。其中，越狱方法是通过构造恶意提示来挖掘潜在漏洞，诱导模型输出违背安全规则的内容。研究者发现，现有的黑盒越狱方法常依赖模型反馈，在攻击搜索阶段反复提交带有可检测恶意指令的查询。这些方法虽有成效，但搜索过程中的攻击可能会被内容审核员截获。

于是，研究者提出了一种改进的迁移攻击方法。该方法是利用良性数据提炼在本地训练目标黑盒模型的镜像模型，以此指导恶意提示的构建。这种方法隐蔽性更强，因为在搜索阶段无需向目标模型提交可识别的恶意指令。研究者使用该方法在 AdvBench 的一个子集上针对 GPT - 3.5 Turbo 进行测试，最高攻击成功率达到 92%，在平衡值下为 80%，平均每个样本有 1.5 个可检测的越狱查询。这些结果让研究者意识到需要更强大的防御机制。

链接：

https://arxiv.org/abs/2410.21083