使用大语言模型在表格化网络安全数据中进行高效异常检测

server/2025/2/4 23:12:39/

论文链接

Efficient anomaly detection in tabular cybersecurity data using large language models

论文主要内容

这篇论文介绍了一种基于大语言模型(LLMs)的创新方法,用于表格网络安全数据中的异常检测,称为“基于引导式提示的表格异常检测”(Tabular Anomaly Detection via Guided Prompts,简称TAD-GP)。该方法利用了一个70亿参数的开源模型,并结合了数据样本介绍、异常类型识别、链式思考推理、虚拟多轮对话和关键信息强化等策略。实验结果表明,TAD-GP框架在CICIDS2017、KDD Cup 1999和UNSW-NB15数据集上的F1分数分别提高了79.31%、97.96%和59.09%。此外,较小规模的TAD-GP模型在多个数据集上的表现优于较大的模型,显示出其在计算资源受限和需要私有部署的环境中的实际潜力。该方法填补了使用小型开源模型进行网络安全异常检测的研究空白。

背景知识

在网络安全领域,表格数据用于捕获关键信息,如网络流量、用户行为和系统日志。随着网络攻击变得越来越复杂,传统的基于规则的检测方法已不足以应对。因此,研究人员转向使用机器学习和深度学习等先进的异常检测技术,尽管这些方法在一定程度上取得了成功,但仍面临泛化能力的挑战。

研究方法

TAD-GP框架通过以下五个关键策略来提高小型语言模型在表格数据异常检测中的性能:

数据样本介绍(Data Sample Introduction)

目的:帮助模型快速熟悉关键数据特征和模式。
方法:随机选择一个正常样本和一个异常样本,将这些样本转换为JSON格式,便于模型处理和理解数据的结构和属性。
效果:增强模型对关键模式的早期识别能力,从而实现更快、更准确的异常检测。

细粒度异常分类(Fine-grained Anomaly Classification)

目的:指导模型识别各种异常行为,提高分类精度。
方法:为每个数据集建立清晰的异常类别序列,如KDD Cup 1999数据集中的拒绝服务(DOS)、远程到本地(R2L)、本地到超级用户(U2R)和探测(PROBING)等类别。
效果:减少不同异常类型之间的混淆风险,提高检测准确性和鲁棒性。

链式思考策略(Chain-of-Thought Strategy)

目的:提高模型对复杂数据特征的理解和推理能力。
方法:采用“先部分,后整体”的策略,模型先独立分析每个特征,然后综合多个特征之间的交互来识别潜在的异常模式。
效果:增强模型对数据特征之间复杂关系的理解,使模型能够检测到不仅显式的异常,还能检测到更微妙的异常模式组合。在高维和复杂数据场景中,该策略允许模型更详细地分析特征依赖关系,从而做出更全面和准确的判断。

虚拟多轮对话技术(Virtual Multi-turn Dialogue Technology)

目的:模拟专家在复杂推理任务中的思维过程,逐步加深对异常模式的理解,同时加快模型的推理速度。
方法:设计多轮对话场景,每轮对话包括用户提问和助手回答。通过多轮互动,模型逐步获取关键信息,从数据示例到特征分析,逐步深化对异常模式的理解。在传统的与大语言模型的对话方式中,用户提问是我们的输入,助手回答是模型经过推理后的输出。例如:对于一个5轮的交互式对话,模型需要进行5次推理输出。而在虚拟多轮对话技术中,除了最后1次的助手回答为模型推理后的输出,其余的4次用户提问与助手回答都是人为设计的,这将原本需要的5次推理输出变为了1次,有效地缩短了模型推理时间。而由于前4次的助手回答都是人为设计的,我们可以在助手回答中放入更多我们所期望的信息,来更好地引导模型的推理过程。这也是我们将整个框架命名为TAD-GP,即基于引导式提示的表格异常检测的主要原因。
效果:减轻模型在单实例分析中的认知负担,通过结构化引导方法促进更精确的推理和判断。与真实对话不同,虚拟对话通过人工设计的助手回答来引导模型进行深入思考,确保其分析过程符合预定义的期望,同时加快模型的推理速度。

关键信息记忆强化(Key Information Memory Reinforcement)

目的:确保模型在多轮对话过程中始终保留关键数据点,防止模型忽略重要元素。
方法:在多轮对话中,通过一致强调重要细节来强化关键信息。例如,在第一轮对话中,模型被提示获取一个正常数据样本,而在第二轮对话中,进一步强调该数据的正常性。
效果:通过反复强调关键特征,模型可以加强对其关键异常模式的记忆,从而提高整体检测精度。在涉及复杂特征关系的场景中,该机制有助于模型保留关键信息,增强其在挑战性数据环境中的可靠性。

实验设计

实验旨在评估大语言模型在表格数据异常检测中的潜力,并通过引入创新的TAD-GP框架来验证其在小型模型中的有效性。实验设计包括多个方面:
模型和数据集选择:选择了Gemma-7b-it模型作为基础模型,并选择了KDD Cup 1999、CICIDS2017和UNSW-NB15三个广泛使用的基准数据集。
数据预处理:包括数据清洗、数据平衡和数据格式转换,以确保数据的完整性和一致性。
评估指标:使用准确率、精确率、召回率和F1分数来全面评估模型在不同实验条件下的性能。

实验结果与讨论

实验结果表明,TAD-GP框架通过引导提示策略显著提高了小型模型在异常检测任务中的性能。具体来说:
链式思考策略:在KDD Cup 1999数据集上,使用5步链式思考和多轮对话将准确率从0.50提高到0.98,F1分数达到0.9796。
多轮对话策略:在CICIDS2017数据集上,多轮对话将F1分数从0.6047提高到0.7931,强调了连续上下文增强对于理解复杂模式的重要性。
小型模型与大型模型的比较:TAD-GP框架使小型Gemma-7b-it模型在多个性能指标上优于大型模型,如GPT-3.5-turbo、Llama-2-70b-chat和Mixtral-8x7B-Instruct。Gemma-7b-it模型的F1分数为0.7879,超过了GPT-3.5-turbo的0.7146和Llama-2-70b-chat的0.7248。

结论

TAD-GP框架提供了一种创新且实用的方法,通过引导提示策略显著提高了小型语言模型在表格网络数据异常检测中的性能。该框架不仅在资源受限的环境中具有优势,还提供了能源效率、灵活部署和隐私保护的支持。未来的研究可以进一步验证该框架的泛化能力,并探索其在金融、医疗保健和供应链管理等领域的潜力。


http://www.ppmy.cn/server/165007.html

相关文章

笔试-业务逻辑4

应用 小明在玩一个数字加减游戏&#xff0c;输入4个正整数&#xff1a;s、t、a、b&#xff0c;其中s>1&#xff0c;b<105&#xff0c;a!b。只使用加法或者减法&#xff0c;使得st。 每回合&#xff0c;小明用当前的数字&#xff0c;加上或减去一个数字&#xff1b;目前有…

基于微信小程序的酒店管理系统设计与实现(源码+数据库+文档)

酒店管理小程序目录 目录 基于微信小程序的酒店管理系统设计与实现 一、前言 二、系统功能设计 三、系统实现 1、管理员模块的实现 (1) 用户信息管理 (2) 酒店管理员管理 (3) 房间信息管理 2、小程序序会员模块的实现 &#xff08;1&#xff09;系统首页 &#xff…

[Java基础]开发工具Idea

安装工具 IDE: 称为集成开发环境, 把代码编写,编译,执行等功能综合在一起的工具 卸载 控制面板->卸载程序->卸载->勾选清空配置->确认卸载 下载/安装 官网下载: IntelliJ IDEA – the Leading Java and Kotlin IDE 默认安装: 旗舰版安装无需任何勾选, 傻瓜安装…

QT知识点复习

1.qt核心机制 对象树、信号和槽、事件机制 2.对象树的作用 优化了内存回收机制。子对象实例化的时候&#xff0c;被父对象放对象树上&#xff0c;父对象释放内存&#xff0c;子对象也释放内存 3.信号和槽的作用 实现多个组件之间的通讯 4.信号和槽的几种连接方式 1.UI界面提…

第五十八节 k8s1.30.x 安装Redis集群

一、环境准备 1.1 准备k8s集群 cat /etc/hosts --- 192.168.80.31 lyc-80-31 192.168.80.32 lyc-80-32 192.168.80.33 lyc-80-33系统版本Rocky linux 8.10 docker版本 26.1.3 k8s版本 v1.31.3集群已免密互信&#xff0c;初始化配置一设置&#xff0c;k8s集群已安装 1.2 准…

神经网络和深度学习

应用 类型 为什么近几年飞速发展 数据增长&#xff0c;算力增长&#xff0c;算法革新 逻辑回归 向量化 浅层神经网络(Shallow neural network) 单条训练数据前向传播计算表达式 batch训练数据前向传播计算表达式 反向传播计算表达式 参数随机初始化 不能全部设为0 原因是同一…

排查定位jar包大文件

解压 JAR 包&#xff1a; mkdir jar_contents unzip your-jar-file.jar -d jar_contents统计各文件大小&#xff1a; du -ah jar_contents | sort -rh | head -n 20这会列出 JAR 包中最大的文件或目录&#xff0c;方便你定位大文件。 方法 2&#xff1a;使用 jar 工具查看文件…

php接口连接数据库

框架&#xff1a;https://www.thinkphp.cn/doc 创建网站 域名自己写 创建文件夹&#xff0c;“test”拉取框架&#xff0c;地址栏输入 composer create-project topthink/think5.1.* tp5 会自动创建一个tp5文件夹 根目录选择刚刚创建拉框架的文件夹 以test为示例 “D:\test\…