12.异常检测

news/2025/2/21 10:54:19/

12.1 异常检测的应用

异常检测最常见的应用是欺诈检测;

如果你有很多用户,每个用户都在从事不同的的活动,你可以对不同的用户活动计算特征变量x^{(i)},然后可以建立一个模型来表示用户表现出各种行为的可能性,用来表示用户行为对应的特征向量。最后可以用建立的模型p(x)来发现网站上行为奇怪的用户,只需要查看哪些用户的p(x)概率小于\varepsilonp(x)< \varepsilon

第二类应用就是工业制造方面,比如飞机引擎问题;

第三类应用就是数据中心的计算机监控。

12.2 高斯分布(正态分布)

可以用高斯分布来进行异常检测

 什么是参数估计?

假设有一个数据集,其中有m个样本,从x^{(1)},...,x^{(m)},假设它们都是实数。参数估计就是:猜测这些样本来自一个高斯分布的总体,每个样本x^{(i)}服从高斯分布(x^{(i)}\sim N(\mu ,\sigma ^2)),通过给定的数据集能够估算出\mu\sigma ^2

\mu =\frac{1}{m}\sum_{i=1}^{m}x^{(i)}\sigma ^2 = \frac{1}{m}\sum_{i=1}^{m}\left ( x^{(i)}-\mu \right )^2(极大似然估计)

其中\frac{1}{m}可以替换成\frac{1}{m-1}

利用高斯分布来构建一个异常检测算法

计算m个数据集在每一个维度上的\mu\sigma ^2,然后根据p(x)得到一个概率\varepsilon,根据概率的大小来定义是否为异常行为。

异常检测算法的步骤

  1. 选择特征量,它会帮助我们指出那些反常的样本;
  2. 给出训练集,也就是m个未作标记的样本;
  3. 给出一个新案例,计算p(x)的值,如果这个概率值很小,就将这一项标为异常

12.3 评估异常检测算法

评估的作用:需要决定是否纳入新的特征,如果分别在纳入该特征和不纳入该特征情况下运行算法,然后算法返回一个数字来告诉你这个特征对算法的影响是好是坏。这样的话,就能更简单地决定是否纳入这个新特征。

 12.4 异常检测vs监督学习

在异常检测中,当时我们开始用了一些带有标签的数据,使用了一些例子,这些例子要么正常要么异常。相应地,我们用y=1或者y=0来标记,那么问题来了,我也可以用监督学习来处理这些数据,为什么要用异常检测呢?

在异常检测中,负样本很多,正样本很少(负样本是普通样例,正样本是异常样例) 。而在监督学习中,正样本和负样本的占比都差不多。对异常检测算法的理解:对正常的数据建模,异常的不管,只要不是正常的就是异常的。

异常检测和监督学习的应用

 12.5 如何选择特征来实现异常检测

问题1:如果画出的数据直方图不像高斯分布,可以通过调整参数,来让数据更接近高斯分布。

 问题2:如何得到异常检测算法的特征?

通过一个误差分析步骤:先完整地训练出一个算法,然后在一组交叉验证集上运行算法,找出哪些预测出错的样本并且尝试能否找到一些其他的特征来帮助学习算法,让那些在交叉验证集中判断出错的样本表现得更好。

12.6 多元高斯分布

两种特征虽然都是显示数据正常,但是特征组合在一块后就异常。

异常检测算法,往往是把\mu附近的数据认为是高频率出现的,表现在图像上类似一个圆形。在一些情况下数据并不是规则分布,单变量的高斯分布不能体现拟合椭圆形状。

因此就引入了多元高斯分布的概念。多变量高斯分布引入了协方差矩阵,通过修改矩阵的值来改变高斯分布的情况。(用于衡量两个变量的总体的误差)

\Sigma可以理解为每个特征的缩放比例,这样就可以拟合更多的数据分布。

 

12.7 多元高斯分布的应用

多元高斯分布的公式:p(x;\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}}}exp\left ( -\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu) \right )

 开发一个应用多元高斯分布的异常检测

  1. 首先利用数据集来拟合模型;
  2. 当有一个新样本x,需要用多元高斯分布的公式来计算p(x),如果得出的值比\varepsilon小就做异常标记;

 

传统高斯分布与多元高斯分布的关系:传统的高斯分布实际上是多变量高斯分布的特殊形式,对应矩阵在非对角线上的数为0。非多元高斯分布算法也可以用协方差矩阵表示计算过程,对角协方差矩阵暗示各个特征之间是相互独立的,当应用多元正态分布时,暗示特征之间是非相互独立的。单独高斯模型只是做伸缩变换,而多元可以伸缩和旋转。

 如何在单独高斯分布与多元高斯分布之间选择?

传统的模型需要手动构造异常特征的组合,多变量可以自动的捕捉。 不过多变量的计算复杂度高一些。

 冗余特征在线性代数中就是线性相关的意思。

 


http://www.ppmy.cn/news/353073.html

相关文章

lcd显示温度子程序c语言,空调温度自动控制系统设计

摘 要 本文介绍了基于C51单片机和电压比较器的空调温度自动控制系统&#xff0c;重点研究了温度采集模块和电压比较模块。通过对温度采集模块不同方案(热电偶传感器、电阻式温度探测器和半导体型温度传感器)的比较和分析&#xff0c;得出最佳结果&#xff0c;并详细分析了温度传…

基于回归模型的销售预测

基于回归模型的销售预测 小P&#xff1a;小H&#xff0c;有没有什么好的办法预测下未来的销售额啊 小H&#xff1a;很多啊&#xff0c;简单的用统计中的一元/多元回归就好了&#xff0c;如果线性不明显&#xff0c;可以用机器学习训练预测 数据探索 导入相关库 # 导入库 impo…

怎么看空调定时成功_空调定时怎么设置

空调是我们常用的电器&#xff0c;尤其是在炎热的夏季空调是我们必须使用的家电&#xff0c;夜晚的时候一直开着空调很容易着凉&#xff0c;这个时候我们可以开启空调的定时键&#xff0c;今天想跟大家说一说空调定时怎么设置&#xff0c;希望可以给大家带来帮助。 一、空调定时…

[成功案例]SAP R/3系统在小天鹅股份有限公司成功实施

无锡小天鹅股份有限公司是一家大型国有控股上市公司&#xff0c;国内洗衣机行业的龙头老大。全自动波轮洗衣机生产量、销售收入、利润等主要经济指标连续多年保持全国同行业第一&#xff0c;1998 年公司跃居全国洗衣机总销量第一。 完善自我&#xff0c;迎接挑战 面对国…

美的吃小天鹅 势头直逼海尔

分析人士称&#xff0c;美的揽入小天鹅后&#xff0c;将坐稳本土白电两强交椅 美的电器(000527)总裁方洪波昨天刚从小天鹅总部江苏无锡归来&#xff0c;而在之前的26日晚上6点钟&#xff0c;美的电器掏出了16.8亿元的真金白银&#xff0c;把小天鹅A(000418)这家本土第二大洗衣机…

Gree格力中央空调网关MC30-24/D1集成测试

串口参数设置:RS485 9600 8 N 1 写寄存器功能码为0x10,读功能码为0x03 室内机1开机命令:01 10 00 66 00 01 02 00 AA 2F E9---》回复01 10 00 66 00 01 E1 D6 室内机1关机命令:01 10 00 66 00 01 02 00 55 6F A9---》回复01 10 00 66 00 01 E1 D6 查询内机1状态命令:01 03 …

php里h和h的区别吗,对比爆料评测小天鹅tb80一1818h和v23h有什么区别?哪个好?内幕曝光测评...

这两个小天鹅tb80一1818h和v23h都还可以的哈&#xff0c;老牌子的&#xff0c;质量不错的&#xff0c;但是小天鹅TB100V23H整体要大气点儿&#xff0c;不过家用都可以吧&#xff0c;看个人吧&#xff0c;我自己用的是小天鹅TB100V23H&#xff0c;款式是我喜欢的&#xff0c;造型…

小天鹅发展的过程

小天鹅发展的过程 因为写一份报告时需要用到小天鹅公司的一些信息&#xff0c;就在网上搜索了小天鹅公司的相关信息&#xff0c;我把这些信息按它发展的过程列了列&#xff0c;如下&#xff1a; 一、小天鹅的过去 1958年5月&#xff0c;小天鹅的前身无锡陶瓷厂成立&#xff0c;…