异常检测相关论文记录

news/2024/11/16 19:53:44/

1、Unsupervised anomaly detection algorithms on real-world data: how many do we need?真实世界数据的无监督异常检测算法:我们需要多少?

Abstract:

  1. 将所考虑的算法在所有数据集上的相对性能进行可视化和聚类,我们确定了两个明确的聚类:一个具有“局部”数据集,另一个具有“全局”数据集。
  2. 在局部数据集上,kNN算法名列前茅。在全局数据集上,EIF(扩展隔离林)算法的性能最好。

Introduction

所陈述的先前论文研究中发现表现较好的些算法:

  1. Isolation Forest 适用于检测全局异常
  2. ABOD (Angle-Based anomaly Detection) /  LOF (Local anomaly Factor)(数据中存在多个聚类时)
  3. kNN 通常给出稳定的结果,推荐用于全局异常
  4. LOF适用于检测局部异常、依赖异常
  5. KDE(内核密度估计)表现还行,但一般不咋健壮,无法计算更大的数据集
  6. OCSVM (One-Class Support Vector Machine) 表现一般不怎么好,使用比其他算法大很多的验证集才能优化其性能

Background

  • 全局异常:是可以从正常数据中分离出来的点
  • 局部异常:位于密度较附近正常区域低的区域

  1. 在许多实际情况下,异常并不是单一的,一小群异常形成集群,导致集群异常

 Materials and Methods

  • 为每种方法、数据集组合得出单个平均ROC-AUC分数
  • 避免优化超参数

数据

  • 实值、多元、表格数据

数据的处理步骤:

  1. 从每个数据集中删除所有重复的样本
  2. 所有数据集中的所有变量都被缩放和居中(中位数和四分位数范围受异常存在的影响都小于平均值和标准差。当已知存在异常时,该程序通常被认为比标准化更稳定)

  • 通常评估异常分数比某些算法产生的二值标签更有用
  • 异常检测评估中最常用的指标根据ROC(接收者工作特征)曲线产生的AUC(曲线下面积)值计算每个算法-数据集组合的性能
  • 使用Iman-Davenport统计量(Iman and Davenport, 1980)来确定算法之间是否存在显著差异。(如果该统计量低于对应于p值0.05的期望临界值,我们应用Nemenyi事后检验(Nemenyi, 1963),然后评估哪些算法彼此显著不同。)
  • ,用a中的一个算法和d中的一个数据集

Discussion

  •  分类算法的数量大大超过了异常检测算法的数量

Conclusion

用户应该在什么时候应用哪种异常检测方法来解决他们的问题

  1. 用户对其数据集是否包含局部或全局异常没有先验知识时:k-thNN是最佳选择
  2. 已知数据集包含局部异常时:性能最好的方法是kNN
  3. 仅包含全局异常的数据集:IF(隔离森林) / EIF。此两种方法计算复杂度低、应用较好

2、Anomalous Instance Detection In Deep Learning: A Survey

根据异常对应的训练数据标签的可用性对这些技术进行分类,即监督、半监督和无监督技术。

Unintentional Anomaly Detection 无意异常检测

无监督:基于GAN的架构用于比较生成图像与测试图像的瓶颈特征、

Inintentional Anomaly Detection 有意异常检测

DNN非常容易受到测试时间对抗样例的影响——人类难以察觉的扰动,当将其添加到任何图像时,都会导致其高概率被错误分类。

  • 监督:从标记的训练样例中学习边界。可能会过拟合
  • 无监督:灵活性、适用性。灵活性以鲁棒性未代价,对噪声和数据损坏非常敏感。不如监督、半监督准确。
  • 半监督:利用标记的数据分布和未标记的数据提升无监督技术的性能,存在过拟合问题

启发式的方法是需要手动选择参数的,比如KNN。

一般来说,基于距离(KNN)和基于投影(GAN)的方法在测试阶段的计算成本很高。

Application Domains 应用领域

  • Intrusion Detection 入侵检测。一个关键挑战是庞大的数据量和复杂的恶意模式,DL在此有广阔的应用前景
  • Fraud Detection 欺诈检测。需准确地识别欺诈交易,实时检测。曾用到LSTM、CNN等。
  • Healthcare and Industrial Domains 医疗保健和工业领域检测。要求准确性,易受到OOD和对抗性示例的影响。
  • Malware Detection 恶意软件检测。监控计算机系统的活动来检测恶意软件。
  • Time Series and Video Surveillance Anomaly Detection 时间序列和视频监控异常检测。基于RNN和LSTM的方法在多变量时间序列数据异常检测中表现良好。

Conclusion

  1. 根据异常示例标签的可用性使用的度量类型对异常检测算法进行分类。对集成检测方法的探索可能是一个有价值的未来方向。集成方法将提供互补优势的多个检测器的输出组合成一个检测器,从而与使用单个检测器相比产生更好的性能。
  2. Going beyond image classification 超越图像分类,超越分类问题,探索基于深度学习的对象检测、控制和规划问题中的异常设计和检测可能是未来一个具有重要影响的研究方向。
  3. heoretical analysis and Fundamental Limits 理论分析和基本限制,在有种模式中,大多数基于启发式的防御(包括后检测和基于训练的)很容易被新的攻击打破。发展连贯的理论和方法来指导基于dl的系统异常检测的实际设计,以及对抗性示例存在的基本特征是至关重要的。

3 Outlier Detection with Autoencoder Ensembles

Abstract

  • 引入了用于无监督异常值检测的自编码器集成。
  • 基本思想是随机改变自编码器的连接架构,以获得更好的性能。与自适应采样方法(为了加快神经网络的训练过程)相结合,使方法更加高效。
  • 在几个基准数据集上,将所提出的方法与目前最先进的检测器进行了比较,结果表明了方法的准确性。

Introduction

  1. 使用各种具有不同结构和连接密度的随机连接的自编码器代替全连接的自编码器作为基本集成组件,降低了计算复杂度
  2. 在集成框架内利用精心设计的自适应样本大小方法来实现提高多样性和训练时间的双重目标。
  3. 自适应采样与随机模型构建相结合,以获得高质量的结果。我们将这个模型称为RandNet,即用于离群点检测的随机神经网络。
  4. 关于这种方法的一个显著观察是:训练过程可以很容易地并行化。

可以把神经网络看作是一个利用非线性降维对异常值进行评分的模型。

RandNet模型

  • 自动编码器的目标:训练输出以尽可能接近地重建输入
  • 对数据进行分层和非线性降维,体系结构是分层和对称的
  • 中间层的节点数量较少,因此重建输入的唯一方法是学习权重
  • 有一组完全独立(不同)的神经网络,并将结果组合在一起。
  • 允许在单个网络中进行过拟合,但只在多个网络的组合中减少方差

  • 输入层的节点数与训练数据的维数完全相同,记为d
  • 对于所有层,节点数量的最小限制是3(为了避免中间层的过度压缩,从而无法正确地重构数据)

集成学习方法 Ensemble learning methods

  • 是将来自不同基础检测器的预测结合起来以产生更稳健结果的算法
  • 基本思想是:根据数据的选择或基本模型的设计,预测算法通常在分数上有一个自然的方差
  • 使集成学习方法起作用:单个集成组件必须充分多样化(通过创建预测模型来实现,让每个集成组件都能够捕获底层模式的不同部分)

本文所提方法

将集成学习方法与自编码器结合使用,以获得更高的精度。

Cites:

  1. Bouman, Roel et al. “Unsupervised anomaly detection algorithms on real-world data: how many do we need?” (2023).
  2. Bulusu, Saikiran et al. “Anomalous Instance Detection in Deep Learning: A Survey.” ArXiv abs/2003.06979 (2020): n. pag.
  3. Chen, Jinghui et al. “Outlier Detection with Autoencoder Ensembles.” SDM (2017).


http://www.ppmy.cn/news/73433.html

相关文章

【ETH】以太网----PHY芯片LAN8720A----电路原理图

一、LAN8720A----简介 LAN8720A 是低功耗的 10/100M 以太网 PHY 层芯片,I/0 引脚电压符合EEE802.3-2005 标准,支持通过 RMI 接口与以太网 MAC 层通信,内置 10-BASE-T/100BASE-TX 全双工传输模块,支持 10Mbps 和 100Mbps。 LAN87…

数据库中的几项区别

mysql中in和exists区别 mysql中的in语句是把外表和内表作hash 连接,而exists语句是对外表作loop 循环,每次loop循环再对内表进行查询。一直大家都认为exists比in语句的效率要高,这种说法其实是不 准确的。这个是要区分环境的。 1. 如…

分布式运用之rsync远程同步

1.rsync的相关知识 1.1 rsync简介 rsync(Remote Sync,远程同步)是一个开源的快速备份工具,可以在不同主机之间镜像同步整个目录树,支持增量备份,并保持链接和权限,且采用优化的同步算法&#x…

【HTTP协议详解】

目录 1.什么是http2.抓包工具2.1 抓包工具2.2 抓包原理 3.Http协议格式3.1Http请求报文3.2Http响应报文的格式 4.请求报文格式4.1 报文首行4.2 请求报文header 5. 响应报文格式6.构造Http请求7.Https协议7.1 对称密钥7.2 非对称密钥7.3 证书 1.什么是http HTTP全称为“超文本协…

CorelDRAW2023最新v24.4.0.623中文稳定版

图形设计软件CorelDRAW2023最新版下载矢量图形制作工具,CorelDRAW(简称CDR)是一款专业的图形设计软件。该软件是Corel公司开发的一款功能强大的专业平面设计软件、矢量设计软件、矢量绘图软件。这款矢量图形制作工具软件广泛应用于商标设计、标志制作、封…

java设计模式之原型设计模式的前世今生

原型设计模式是什么? 原型设计模式是一种创建型设计模式,它允许您使用现有的对象作为模板来创建新对象。在原型模式中,您创建一个现有对象的副本,并根据需要进行修改,而不是从头开始创建新对象。这种模式的核心思想是…

(华三AC+AP)在华三AC上通过用户mac地址或者IP地址查询在那一台AP下

起因:用户终端的WiFi信号一直不停地断开重连,发现AP的信号消失了,检查配置并没有问题,但是在后来发现重启可以让AP恢复使用,但是过一段时间还是会出现这样的问题,因为AP没有备用换下维修,这个AP…

java常用工具之Scanner类

目录 简介一、扫描控制台输入1.1nextLine1.2nextInt1.3其他方法 二、扫描文件三、查找匹配项四、小结 简介 Java 的 Scanner 类是一个方便在控制台扫描用户输入的工具类,虽然它也可以扫描文件内容,但我们通常更喜欢它扮演前面的角色,因为扫描…