使用大语言模型在表格化网络安全数据中进行高效异常检测

论文链接

Efficient anomaly detection in tabular cybersecurity data using large language models

论文主要内容

这篇论文介绍了一种基于大语言模型（LLMs）的创新方法，用于表格网络安全数据中的异常检测，称为“基于引导式提示的表格异常检测”（Tabular Anomaly Detection via Guided Prompts，简称TAD-GP）。该方法利用了一个70亿参数的开源模型，并结合了数据样本介绍、异常类型识别、链式思考推理、虚拟多轮对话和关键信息强化等策略。实验结果表明，TAD-GP框架在CICIDS2017、KDD Cup 1999和UNSW-NB15数据集上的F1分数分别提高了79.31%、97.96%和59.09%。此外，较小规模的TAD-GP模型在多个数据集上的表现优于较大的模型，显示出其在计算资源受限和需要私有部署的环境中的实际潜力。该方法填补了使用小型开源模型进行网络安全异常检测的研究空白。

背景知识

在网络安全领域，表格数据用于捕获关键信息，如网络流量、用户行为和系统日志。随着网络攻击变得越来越复杂，传统的基于规则的检测方法已不足以应对。因此，研究人员转向使用机器学习和深度学习等先进的异常检测技术，尽管这些方法在一定程度上取得了成功，但仍面临泛化能力的挑战。

研究方法

TAD-GP框架通过以下五个关键策略来提高小型语言模型在表格数据异常检测中的性能：

数据样本介绍（Data Sample Introduction）

目的：帮助模型快速熟悉关键数据特征和模式。
方法：随机选择一个正常样本和一个异常样本，将这些样本转换为JSON格式，便于模型处理和理解数据的结构和属性。
效果：增强模型对关键模式的早期识别能力，从而实现更快、更准确的异常检测。

细粒度异常分类（Fine-grained Anomaly Classification）

目的：指导模型识别各种异常行为，提高分类精度。
方法：为每个数据集建立清晰的异常类别序列，如KDD Cup 1999数据集中的拒绝服务（DOS）、远程到本地（R2L）、本地到超级用户（U2R）和探测（PROBING）等类别。
效果：减少不同异常类型之间的混淆风险，提高检测准确性和鲁棒性。

链式思考策略（Chain-of-Thought Strategy）

目的：提高模型对复杂数据特征的理解和推理能力。
方法：采用“先部分，后整体”的策略，模型先独立分析每个特征，然后综合多个特征之间的交互来识别潜在的异常模式。
效果：增强模型对数据特征之间复杂关系的理解，使模型能够检测到不仅显式的异常，还能检测到更微妙的异常模式组合。在高维和复杂数据场景中，该策略允许模型更详细地分析特征依赖关系，从而做出更全面和准确的判断。

虚拟多轮对话技术（Virtual Multi-turn Dialogue Technology）

目的：模拟专家在复杂推理任务中的思维过程，逐步加深对异常模式的理解，同时加快模型的推理速度。
方法：设计多轮对话场景，每轮对话包括用户提问和助手回答。通过多轮互动，模型逐步获取关键信息，从数据示例到特征分析，逐步深化对异常模式的理解。在传统的与大语言模型的对话方式中，用户提问是我们的输入，助手回答是模型经过推理后的输出。例如：对于一个5轮的交互式对话，模型需要进行5次推理输出。而在虚拟多轮对话技术中，除了最后1次的助手回答为模型推理后的输出，其余的4次用户提问与助手回答都是人为设计的，这将原本需要的5次推理输出变为了1次，有效地缩短了模型推理时间。而由于前4次的助手回答都是人为设计的，我们可以在助手回答中放入更多我们所期望的信息，来更好地引导模型的推理过程。这也是我们将整个框架命名为TAD-GP，即基于引导式提示的表格异常检测的主要原因。
效果：减轻模型在单实例分析中的认知负担，通过结构化引导方法促进更精确的推理和判断。与真实对话不同，虚拟对话通过人工设计的助手回答来引导模型进行深入思考，确保其分析过程符合预定义的期望，同时加快模型的推理速度。

关键信息记忆强化（Key Information Memory Reinforcement）

目的：确保模型在多轮对话过程中始终保留关键数据点，防止模型忽略重要元素。
方法：在多轮对话中，通过一致强调重要细节来强化关键信息。例如，在第一轮对话中，模型被提示获取一个正常数据样本，而在第二轮对话中，进一步强调该数据的正常性。
效果：通过反复强调关键特征，模型可以加强对其关键异常模式的记忆，从而提高整体检测精度。在涉及复杂特征关系的场景中，该机制有助于模型保留关键信息，增强其在挑战性数据环境中的可靠性。

实验设计

实验旨在评估大语言模型在表格数据异常检测中的潜力，并通过引入创新的TAD-GP框架来验证其在小型模型中的有效性。实验设计包括多个方面：
模型和数据集选择：选择了Gemma-7b-it模型作为基础模型，并选择了KDD Cup 1999、CICIDS2017和UNSW-NB15三个广泛使用的基准数据集。
数据预处理：包括数据清洗、数据平衡和数据格式转换，以确保数据的完整性和一致性。
评估指标：使用准确率、精确率、召回率和F1分数来全面评估模型在不同实验条件下的性能。

实验结果与讨论

实验结果表明，TAD-GP框架通过引导提示策略显著提高了小型模型在异常检测任务中的性能。具体来说：
链式思考策略：在KDD Cup 1999数据集上，使用5步链式思考和多轮对话将准确率从0.50提高到0.98，F1分数达到0.9796。
多轮对话策略：在CICIDS2017数据集上，多轮对话将F1分数从0.6047提高到0.7931，强调了连续上下文增强对于理解复杂模式的重要性。
小型模型与大型模型的比较：TAD-GP框架使小型Gemma-7b-it模型在多个性能指标上优于大型模型，如GPT-3.5-turbo、Llama-2-70b-chat和Mixtral-8x7B-Instruct。Gemma-7b-it模型的F1分数为0.7879，超过了GPT-3.5-turbo的0.7146和Llama-2-70b-chat的0.7248。