GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
1. 关于使用大语言模型(LLM)支持静态恶意软件分析的可行性研究
简介:大语言模型(LLMs)正变得更加先进且应用广泛,已在包括网络安全在内的多个领域展现出其适用性。静态恶意软件分析是网络安全领域中最重要的任务之一;然而,它耗时且需要高水平的专业知识。因此,研究者进行了一项演示实验,重点关注大语言模型是否可用于支持静态分析。
首先,研究者评估了大语言模型解释恶意软件功能的能力。结果显示,该模型能够生成对功能进行描述的内容,其准确率可达 90.9%。此外,研究者让六名静态分析人员利用大语言模型给出的解释来执行一项伪静态分析任务,以验证大语言模型在实际中能够得到应用。通过随后对参与者进行的问卷调查和访谈,研究者也证明了大语言模型的实际适用性。最后,研究者总结了在将大语言模型用作静态分析支持时存在的问题、所需的功能,以及对未来研究机会的建议。
链接:
https://arxiv.org/abs/2411.14905
2. ChatHTTPFuzz:大语言模型辅助的物联网超文本传输协议(HTTP)模糊测试
简介:物联网(IoT)设备通过网络接口、网络虚拟专用网络(VPN)以及其他基于网络的服务提供便利,所有这些都依赖超文本传输协议(HTTP)。然而,这些对外暴露的 HTTP 服务存在重大安全风险。尽管模糊测试在识别物联网 HTTP 服务中的漏洞方面已显示出一定的有效性,但大多数最先进的工具仍然依赖随机变异策略,这导致难以准确理解 HTTP 协议的结构并会生成许多无效测试用例。此外,这些模糊测试工具依赖有限的一组初始种子进行测试。虽然这种方法开启了测试,但种子数量有限且多样性不足,阻碍了对物联网 HTTP 服务中复杂场景的全面覆盖。
在本文中,研究者经过研究发现,大语言模型(LLMs)在解析 HTTP 协议数据和分析代码逻辑方面表现出色。基于这些发现,研究者提出了一种新颖的由大语言模型引导的物联网 HTTP 模糊测试方法 ——ChatHTTPFuzz,它能自动解析协议字段并分析服务代码逻辑以生成符合协议的测试用例。具体来说,研究者利用大语言模型对 HTTP 协议数据中的字段进行标注,创建种子模板。其次,大语言模型分析服务代码以指导生成符合代码逻辑的额外数据包,丰富种子模板及其字段值。最后,研究者基于探索平衡因子和变异潜力因子设计了一种增强型汤普森采样算法来调度种子模板。
研究者在 14 种不同的真实物联网设备上对 ChatHTTPFuzz 进行了评估。它发现的漏洞比 SNIPUZZ、BOOFUZZ 和 MUTINY 都要多。ChatHTTPFuzz 已经发现了 103 个漏洞,其中 68 个是独一无二的,并且有 23 个已被分配了通用漏洞披露(CVE)编号。
链接:
https://arxiv.org/abs/2411.11929
3. ProSec:通过主动的安全对齐强化代码相关的大语言模型
简介:针对代码的大语言模型(LLMs)近期取得的进展极大地提升了代码生成和优化能力。然而,代码相关大语言模型的安全性仍未得到充分探究,由于这些模型生成的不安全代码可能会给现实系统引入漏洞,从而带来潜在风险。先前的研究工作提出从现实世界中的漏洞收集以安全为重点的指令微调数据集。但它受到易受攻击代码的数据稀疏性的限制,并且在现代大语言模型的迭代式训练后工作流程中的适用性有限。
在本文中,研究者提出了 ProSec,这是一种新颖的主动式安全对齐方法,旨在使代码相关大语言模型与安全编码实践相契合。ProSec 通过根据通用缺陷枚举(CWEs)合成会引发错误的编码场景,系统地揭示代码相关大语言模型中的漏洞,并为有漏洞的代码片段生成修复方案,从而让模型通过先进的偏好学习目标来学习安全实践。ProSec 合成的场景所触发的有漏洞代码比普通指令微调数据集多出 25 倍,由此生成的以安全为重点的对齐数据集比之前的研究成果大 7 倍。实验表明,使用 ProSec 训练的模型相较于之前的研究成果,安全性提高了 29.2% 至 35.5%,对模型实用性的负面影响极小,不到 2 个百分点。
链接:
https://arxiv.org/abs/2411.12882
4. CryptoFormalEval:整合大语言模型(LLMs)与形式验证以实现自动化的密码协议漏洞检测
简介:密码协议在保障现代数字基础设施安全方面起着基础性作用,但它们在部署时往往未经事先的形式验证。这可能导致分布式系统易受攻击向量的影响而存在漏洞。另一方面,形式验证方法需要复杂且耗时的技术,并且缺乏自动化。
在本文中,研究者引入了一个基准来评估大语言模型(LLMs)通过与 Tamarin(一种用于协议验证的定理证明器)交互,自主识别新密码协议中漏洞的能力。研究者创建了一个手动验证的、新颖的、有缺陷的通信协议数据集,并设计了一种方法来自动验证人工智能体所发现的漏洞。
研究者关于当前前沿模型在该基准上的性能结果,为通过将大语言模型与符号推理系统相结合来实现网络安全应用的可能性提供了见解。
链接:
https://arxiv.org/abs/2411.13627
5. ProphetFuzz:仅依据文档,通过大语言模型对高风险选项组合进行全自动预测和模糊测试
简介:由于选项组合相关漏洞的搜索空间巨大,它们在软件安全测试中构成了重大挑战。先前的研究主要通过变异或过滤技术来应对这一挑战,这些技术将所有选项组合都视为具有同等的产生漏洞的可能性,从而在无漏洞目标上浪费了大量时间,导致测试效率低下。
在本文中,研究者利用精心设计的提示工程来驱动大语言模型(LLM)预测高风险选项组合(即更有可能包含漏洞的组合),并在无需人工干预的情况下自动进行模糊测试。研究者开发了一款名为 ProphetFuzz 的工具,并在一个数据集上对其进行了评估,该数据集包含从三项相关研究中收集的 52 个程序。整个实验耗费了 10.44 CPU 年。ProphetFuzz 成功预测了 1748 个高风险选项组合,平均每个程序的预测成本仅为 8.69 美元。
结果显示,经过 72 小时的模糊测试,ProphetFuzz 发现了 364 个独特漏洞,这些漏洞与 12.30% 的预测高风险选项组合相关,比同期最先进的方法所发现的漏洞数量高出 32.85%。此外,利用 ProphetFuzz,研究者对这些程序的最新版本进行了持续模糊测试,发现了 140 个漏洞,其中 93 个已得到开发人员确认,21 个已被分配了 CVE 编号。
链接:
https://arxiv.org/abs/2409.00922