【论文速读】| LLMCloudHunter:利用大语言模型(LLMs)从基于云的网络威胁情报(CTI)中自动提取检测规则

news/2024/11/14 9:11:25/

图片

本次分享论文:LLMCloudHunter: Harnessing LLMs for Automated Extraction of Detection Rules from Cloud-Based CTI

基本信息

原文作者:Yuval Schwartz, Lavi Benshimol, Dudu Mimran, Yuval Elovici, Asaf Shabtai

作者单位Ben-Gurion University of the Negev, Department of Software and Information Systems Engineering

关键词:网络威胁情报(CTI)、大语言模型(LLM)、威胁狩猎、云、Sigma规则

原文链接:https://arxiv.org/abs/2407.05194

开源代码:暂无

论文要点

论文简介:随着网络攻击数量和复杂性的增加,威胁狩猎已成为主动安全的关键方面,能够在威胁造成重大损害之前进行检测和缓解。开源网络威胁情报(OSCTI)是威胁狩猎者的重要资源,但通常以非结构化格式提供,需要进一步的手动分析。本文提出了LLMCloudHunter,这是一个新颖的框架,利用大语言模型(LLMs)从文本和视觉OSCTI数据中自动生成通用签名检测规则候选。研究者使用12个注释的实际云威胁报告评估了所提出框架生成的规则的质量。结果表明,研究者的框架在准确提取威胁行为者API调用方面达到了92%的精确度和98%的召回率,并且在生成的检测规则候选成功编译并转换为Splunk查询方面达到了99.18%的成功率。

研究目的:在技术快速发展的背景下,网络攻击的数量和复杂性显著增加,传统的被动防御措施已经不足以应对这些威胁。威胁狩猎是一种主动搜索和缓解未被检测到的威胁的方法,旨在缩短入侵与发现之间的时间窗口。开源网络威胁情报(OSCTI)是威胁狩猎中广泛使用的信息来源,但由于其非结构化的特性,通常需要手动分析才能得出有意义的见解。本文的研究目的在于开发一个利用大语言模型(LLMs)的框架,能够自动从非结构化OSCTI中提取检测规则,从而提高威胁狩猎的效率和准确性,特别是在云环境下。

研究贡献:

1. 提出一个基于LLM的新框架,能够从非结构化OSCTI中自动生成Sigma规则候选,集成了文本和视觉信息,虽然框架主要针对云环境,但可以适用于本地环境相关的CTI。

2. 提供了一个包含12个云相关OSCTI帖子的注释数据集,支持框架的训练和评估。

3. 提供了关于LLM在网络安全复杂NLP任务中的应用见解,涉及提示工程技术和模型特性参数的有效使用。

4. 进行了全面的评估,评估了生成的Sigma规则候选的准确性和正确性。

5. 将研究者的代码和云CTI数据集在GitHub上公开,供研究社区使用。

引言

随着技术的快速发展和数字化进程的推进,网络攻击的数量和复杂性也随之增加,导致与这些技术进步相关的安全风险日益突出。为了应对这些风险,组织在传统的被动防御措施之外,开始采用动态防御策略,其中之一就是威胁狩猎。这种方法通过主动搜索和缓解未被检测到的威胁,旨在缩短从入侵到发现的时间窗口。开源网络威胁情报(OSCTI)作为威胁狩猎者的重要资源,提供了大量潜在和活跃威胁的信息。然而,OSCTI通常以非结构化的格式出现,需要手动分析才能得出有意义的见解。本文提出了LLMCloudHunter框架,利用大语言模型(LLM)自动从文本和视觉OSCTI数据中生成检测规则,特别针对云环境的独特安全挑战。

研究方法

本文提出的LLMCloudHunter框架包括三个主要阶段:预处理、段落级处理和OSCTI级处理。在预处理阶段,首先使用网络抓取工具下载并解析OSCTI的HTML代码,将其转换为统一的文本格式,并过滤掉不必要的内容。接着,通过图像分析模块处理从OSCTI中提取的图像,将其内容转换为文本以供进一步分析。

图片

在段落级处理阶段,框架通过API调用提取器和MITRE ATT&CK TTP提取器,从预处理后的文本中识别出关键实体。然后,利用规则生成器将这些实体转化为初步的Sigma规则候选。

最后,在OSCTI级处理阶段,框架对从各段落生成的Sigma规则候选进行聚合和优化。通过规则优化器合并和分离选择字段,消除冗余,并通过IoC增强器将提取的IoC整合到Sigma规则中,最终生成逻辑一致且操作性强的检测规则。

通过这种方法,LLMCloudHunter能够从非结构化的OSCTI数据中自动生成适用于云环境的检测规则,提高威胁狩猎的效率和准确性。

研究讨论

研究者在12个云相关OSCTI源上评估了LLMCloudHunter的有效性和准确性。结果显示,该框架在准确提取威胁行为者的API调用方面达到了92%的精确度和98%的召回率,在提取IoC方面达到了99%的精确度和98%的召回率。此外,99.18%的生成检测规则候选成功转换为Splunk查询。通过综合评估,研究者确认了框架在处理OSCTI方面的高效性和准确性。

消融研究结果进一步验证了框架各组件的重要性。尤其是图像分析模块和API调用提取器,对提高整体性能起到了关键作用。然而,提取MITRE ATT&CK TTP的过程仍存在一定挑战,这可能影响整体性能,但不会影响Sigma规则候选的检测能力。总体而言,LLMCloudHunter展示了在自动化处理非结构化OSCTI数据方面的巨大潜力。

研究评估

数据集:研究者收集了12个由不同供应商发布的云环境开源网络威胁情报(OSCTI)。每个OSCTI的详细描述包括图像数量、标记数量、API调用数量及其技术复杂性。为了创建数据集的真实标签,研究者的研究团队(包括威胁狩猎和云安全专家)对每个OSCTI的内容进行了深入分析,识别并提取了OSCTI中描述的实体及其关系,以创建连贯且有意义的Sigma规则候选。

图片

评估指标:研究者使用常见的实体和关系提取指标(精确度、召回率和F1分数)评估了框架的性能,并定义了一组特定的标准以测试每个Sigma规则候选在OSCTI的操作上下文中的功能性。

结果:LLMCloudHunter在提取威胁行为者的API调用方面表现出色,达到92%的精确度和98%的召回率,在提取IoC方面达到99%的精确度和98%的召回率。此外,生成的Sigma规则候选中有99.18%成功转换为Splunk查询。研究者的评估还显示,LLMCloudHunter生成的规则在语法正确性、条件字段准确性和描述元数据对齐方面表现优异,但在关键程度准确性方面略有不足。

图片

消融研究进一步验证了各组件的重要性,特别是图像分析模块和API调用提取器在提高整体性能方面起到了关键作用。尽管在提取MITRE ATT&CK TTP方面存在挑战,但这些并未显著影响Sigma规则候选的检测能力。总体而言,LLMCloudHunter在处理非结构化OSCTI数据并生成可操作的检测规则方面展示了巨大的潜力。

论文结论

本文提出了LLMCloudHunter,一个利用预训练大语言模型分析文本和视觉OSCTI并自动生成Sigma规则候选的端到端框架。研究者的框架展示了LLMs在处理OSCTI和生成可操作规则方面的潜力,通过使用Sigma格式,LLMCloudHunter的输出可以无缝集成到现有的SIEM系统中。

未来的工作可以集中在将LLMCloudHunter扩展到本地环境,增加其在不同组织设置和环境中的适用性。此外,研究者计划通过增加剧本自动化功能,增强框架的威胁缓解能力,为威胁狩猎提供更强大的支持。

原作者:论文解读智能体

校对:小椰风

图片


http://www.ppmy.cn/news/1499815.html

相关文章

微服务:网关

网关 网关,即网络的关口,当一个网络传输到另一个网络时就需要经过网关来实现 数据的路由和转发 以及 数据安全的校验 网关技术实现 SpringCloudGateWay: 基于Spring的WebFlux技术,完全支持响应式编程,吞吐能力更强 SpringCloudGateWay 依赖 <!--网关--><depe…

【Android】性能实践—编码优化与布局优化学习笔记

编码优化 使用场景 如果需要拼接字符串&#xff0c;优先使用StringBuffer和StringBuilder进行凭借&#xff0c;他们的性能优于直接用加号进行拼接&#xff0c;因为使用加号连接符会创建多余的对象一般情况下使用基本数据类来代替封装数据类型&#xff08;比如int优于Integer&…

四步实现网站HTTPS访问

随着网络安全的重要性日益凸显&#xff0c;HTTPS&#xff08;超文本传输安全协议&#xff09;已成为现代网站的标准配置。HTTPS协议作为HTTP协议的安全版本&#xff0c;通过SSL协议加密数据传输&#xff0c;不仅能保护用户数据的安全&#xff0c;还能提升搜索引擎排名&#xff…

3U/6U CPCI 系统核心模块,可应用于电力、轨道交通等领域

一、3U CPCI核心模块 提供CPCI系列产品&#xff0c;具有&#xff0c;高性能&#xff0c;应用扩展灵活&#xff0c;X86软件兼容&#xff0c;无风扇设计&#xff0c;宽工作温度范围&#xff0c;长嵌入式生命周期等特点&#xff0c;满足不同客户的需求。 产品特点 Intel Pentium …

openCv -- 优势

OpenCV(开源计算机视觉库)是一个广泛使用的计算机视觉和机器学习软件框架。它最初由Intel开发,后来由Itseez公司维护,最终于2015年成为非营利组织OpenCV.org的一部分。OpenCV的目的是实现一个易于使用且高效的计算机视觉框架,支持实时视觉应用。 以下是关于OpenCV的一些关…

聚观早报 | Meta发布Llama 3.1 405B;特斯拉发布二季度财报

聚观早报每日整理最值得关注的行业重点事件&#xff0c;帮助大家及时了解最新行业动态&#xff0c;每日读报&#xff0c;就读聚观365资讯简报。 整理丨Cutie 7月25日消息 Meta发布Llama 3.1 405B 特斯拉发布二季度财报 NVIDIA AI Foundry上线 iPhone 16将改进内部设计 快…

Python入门------pycharm加载虚拟环境

pycharm虚拟环境配置&#xff1a; 在按照前面的办法&#xff0c;配置好虚拟环境后,如果我们需要到虚拟环境开发&#xff0c;就需要给编译器配置虚拟环境 1.打开编译器&#xff0c;点击右下角的interpreter选项 2. 点击ADD Interpreter,添加虚拟环境 3. 因为我们使用的是原始…

安装nfs和rpcbind设置linux服务器共享磁盘

1、安装nfs和rpcbind 1.1 检查服务器是否安装nfs和rpcbind&#xff0c;执行下命令&#xff0c;检查服务器是否安装过。 rpm -qa|grep nfs rpm -qa|grep rpcbind 说明服务器以安装了&#xff0c;如果没有就需要自己安装 2、安装nfs和rpcbind 将rpm安装包&#xff1a; libtirpc-…