数据集
(1)NSL-KDD数据集的训练集中不包含冗余记录,所以分类器不会偏向更频繁的记录;
(2)NSL-KDD数据集的测试集中没有重复的记录,使得检测率更为准确。
(3)来自每个难度级别组的所选记录的数量与原始KDD数据集中的记录的百分比成反比。结果,不同机器学习方法的分类率在更宽的范围内变化,这使得对不同学习技术的准确评估更有效。
(4)训练和测试中的记录数量设置是合理的,这使得在整套实验上运行实验成本低廉而无需随机选择一小部分。因此,不同研究工作的评估结果将是一致的和可比较的。
NSL-KDD 数据集
NSL-KDD 数据集是著名的KDD’99数据集的修订版本,该数据集由四个子数据集组成:KDDTest+、KDDTest-21、KDDTrain+、KDDTrain+_20Percent。其中KDDTest-21 和 KDDTrain+_20Percent 是 KDDTrain+ 和 KDDTest+ 的子集。
数据集每条记录包含 43 个特征,其中 41 个特征指的是流量输入本身,最后两个是标签(正常或攻击)和分数(流量输入本身的严重性)。
数据集中存在 4 种不同类型的攻击:拒绝服务 (DoS)、探测、用户到根 (U2R) 和远程到本地 (R2L)。
- DoS 是一种尝试关闭进出目标系统的流量的攻击。 IDS被系统无法处理的异常流量淹没,并关闭以保护自己。
- 探测或监视是一种尝试从网络获取信息的攻击。
- U2R 是一种从普通用户帐户开始并尝试以超级用户 (root) 身份访问系统或网络的攻击<