GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区,集成了生成预训练Transformer(GPT)、人工智能生成内容(AIGC)以及大语言模型(LLM)等安全领域应用的知识。在这里,您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令(Prompts)。现为了更好地知悉近一周的贡献内容,现总结如下。
Security Papers
1. 映射你的模型:评估对抗性攻击对基于大语言模型的编程助手的影响
简介:研究者提出了一种名为"恶意编程提示"(MaPP)的攻击方式,通过在编程任务的提示中添加少量文本,诱导大语言模型(LLM)生成带有安全漏洞的代码。研究显示,即便是最先进的LLM也易受此攻击,研究者表明必须加强对LLM提示的安全防护,并严格审计由LLM辅助生成的代码。
链接:
https://arxiv.org/pdf/2407.11072
2. TALEC:通过标准划分和零次加少量次学习,教会你的大语言模型在特定领域使用内部标准进行评估
简介:本文提出了一种名为TALEC的模型评估方法。该方法允许用户自定义评估标准,并通过上下文学习(ICL)技术训练评判模型,使其能够理解和应用这些标准。研究者还探索了将零次学习与少量次学习相结合的方式,以提升评判模型对信息的关注度。此外,他们还设计了一种提示范例和工程化方法来优化和迭代这些少量次学习过程,帮助模型更深入地理解复杂的评估标准。然后,研究者将微调与ICL进行比较,发现微调可以被ICL取代。TALEC在准确反映人类偏好方面表现出色,其与人类判断的相关性在某些任务中超过了80%,甚至超越了人与人之间的相关性。
链接:
https://arxiv.org/pdf/2407.10999
3. Chain & Hash,一种大语言模型的指纹技术
简介:本文提出了一种名为Chain & Hash的新型LLM指纹识别技术,以应对大语言模型(LLMs)被盗用和滥用的问题。该技术通过生成问题和答案集,利用安全哈希技术生成指纹,确保了透明度、效率、持久性、健壮性和不可伪造性。实验表明,该技术能有效抵抗良性和恶意的模型变换,且在不同基准测试中,带指纹模型的性能与不带指纹模型相当。
链接:
https://arxiv.org/pdf/2407.10887
4. SLIP:使用权重分解保护大语言模型的知识产权
简介:大语言模型最近在学界和业界的应用日益广泛,但随着其成为知识产权(IP),保护其免受盗窃和未授权使用的需求日益增加。尤其是在成本高昂的云部署转向边缘设备部署时,保护模型参数的安全性尤为重要。本文引入了一种名为SLIP的新型混合推理算法,旨在保护边缘部署的模型免受盗窃。SLIP通过矩阵分解技术,将模型分割为两部分,分别部署在安全但成本高和成本效益高但易受攻击的计算资源上,确保敏感的模型参数得到保护,同时保持推理的准确性和最小化延迟影响。实验结果证明了该方法的鲁棒性和有效性,使其成为保护LLMs的一个引人注目的解决方案。
链接:
https://arxiv.org/pdf/2407.10886
5. 利用大语言模型拆解混淆的可执行文件
简介:在本文中,研究者提出了 DisasLLM,一种新颖的由 LLM 驱动的反汇编器,以克服分析混淆可执行文件的挑战。DisasLLM 由两个组件组成:一个基于 LLM 的分类器,用于确定汇编代码片段中的指令是否正确解码;以及一个反汇编策略,利用该模型对混淆的可执行文件进行端到端的反汇编。研究者在一组严重混淆的可执行文件上对 DisasLLM 进行了评估,结果表明它显著优于其他最先进的反汇编解决方案。
链接:
https://arxiv.org/pdf/2407.08924
6. eyeballvul:一个面向未来的野外漏洞基准测试
简介:研究者指出,近期大语言模型的长上下文开启了新的应用场景:让模型在整个代码库中查找安全漏洞。为评估模型在此任务上的表现,研究者引入了 eyeballvul 这一基准测试。它旨在大规模测试语言模型的漏洞检测能力,每周从开源库中发布的漏洞流获取并更新。该基准测试包含不同库中的一系列修订版本,每个修订版都关联着当时的已知漏洞列表。通过基于大语言模型的评分器,将模型返回的可能漏洞列表与每个修订版的已知漏洞列表作比较。截至 2024 年 7 月,eyeballvul 包含来自6000多个修订和5000多个代码库的24000多个漏洞,大小约 55GB。
链接:
https://arxiv.org/pdf/2407.08708