吴恩达机器学习笔记:第 9 周-15 异常检测(Anomaly Detection) 15.1-15.2

devtools/2024/9/25 10:24:38/

目录

  • 第 9 周 15、 异常检测(Anomaly Detection)
    • 15.1 问题的动机
    • 15.2 高斯分布

第 9 周 15、 异常检测(Anomaly Detection)

15.1 问题的动机

在接下来的一系列视频中,我将向大家介绍异常检测(Anomaly detection)问题。这是机器学习算法的一个常见应用。这种算法的一个有趣之处在于:它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。

什么是异常检测呢?为了解释这个概念,让我举一个例子吧:

假想你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行QA(质量控制测试),而作为这个测试的一部分,你测量了飞机引擎的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等等。

在这里插入图片描述
这样一来,你就有了一个数据集,从 x ( 1 ) x^{(1)} x(1) x ( m ) x^{(m)} x(m),如果你生产了𝑚个引擎的话,你将这些数据绘制成图表,看起来就是这个样子:
在这里插入图片描述
这里的每个点、每个叉,都是你的无标签数据。这样,异常检测问题可以定义如下:我们假设后来有一天,你有一个新的飞机引擎从生产线上流出,而你的新飞机引擎有特征变量 x t e s t x_{test} xtest。所谓的异常检测问题就是:我们希望知道这个新的飞机引擎是否有某种异常,或者说,我们希望判断这个引擎是否需要进一步测试。因为,如果它看起来像一个正常的引擎,那么我们可以直接将它运送到客户那里,而不需要进一步的测试。

给定数据集 x ( 1 ) , x ( 2 ) , . . , x ( m ) x^{(1)}, x^{(2)}, . . , x^{(m)} x(1),x(2),..,x(m),我们假使数据集是正常的,我们希望知道新的数据 x t e s t x_{test} xtest是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 𝑝(𝑥)。
在这里插入图片描述
上图中,在蓝色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该组数据的可能性就越低。

这种方法称为密度估计,表达如下:
i f p ( x ) = { < ε , a n o m a l y > = ε , n o r m a l if \quad p(x)=\begin{cases} <ε,anomaly\\ >=ε, normal \end{cases} ifp(x)={<ε,anomaly>=ε,normal
欺诈检测: x ( i ) x^{(i)} x(i) = 用户的第 𝑖个活动特征
模型 p ( x ) p(x) p(x) 为我们其属于一组数据的可能性,通过 p ( x ) p(x) p(x) <ε 检测非正常用户。

异常检测主要用来识别欺骗。例如在线采集而来的有关用户的数据,一个特征向量中可能会包含如:用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户。

再一个例子是检测一个数据中心,特征可能包含:内存使用情况,被访问的磁盘数量,CPU 的负载,网络的通信量等。根据这些特征可以构建一个模型,用来判断某些计算机是不是有可能出错了。

15.2 高斯分布

在这个视频中,我将介绍高斯分布,也称为正态分布。回顾高斯分布的基本知识。通常如果我们认为变量 𝑥 符合高斯分布 𝑥 ∼ 𝑁( μ , σ 2 \mu, \sigma^2 μ,σ2)则其概率密度函数为:

p ( x , μ , σ 2 ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 p(x,\mu,\sigma^2) =\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} p(x,μ,σ2)=2πσ2 1e2σ2(xμ)2

我们可以利用已有的数据来预测总体中的 μ \mu μ σ 2 \sigma^2 σ2,计算方法如下:
μ = 1 m ∑ i = 1 m x i \mu=\frac{1}{m}\sum_{i=1}^m{x^{i}} μ=m1i=1mxi
σ 2 = 1 m ∑ i = 1 m ( x i − μ ) 2 \sigma^2 =\frac{1}{m}\sum_{i=1}^m{(x^{i}-\mu)^2} σ2=m1i=1m(xiμ)2

在这里插入图片描述
注:机器学习中对于方差我们通常只除以𝑚而非统计学中的(𝑚 − 1)。这里顺便提一下,在实际使用中,到底是选择使用 1 m \frac{1}{m} m1还是 1 m − 1 \frac{1}{m-1} m11其实区别很小,只要你有一个还算大的训练集,在机器学习领域大部分人更习惯使用 1 m \frac{1}{m} m1这个版本的公式。这两个版本的公式在理论特性和数学特性上稍有不同,但是在实际使用中,他们的区别甚小,几乎可以忽略不计。


http://www.ppmy.cn/devtools/29783.html

相关文章

外包干了2个月,技术退步明显。。。。。

先说一下自己的情况&#xff0c;本科生&#xff0c;17年通过校招进入武汉某软件公司&#xff0c;干了接近3年的功能测试&#xff0c;今年五一&#xff0c;感觉自己不能够在这样下去了&#xff0c;长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了3年的功能测试&…

计算机网络chapter2——应用层

文章目录 第2章 应用层章节引出—— 2.1应用层协议原理2.1.1 网络应用程序体系结构&#xff08;1&#xff09;客户-服务器体系结构&#xff08;2&#xff09;对等(P2P)体系结构2.1.2 进程通信1.客户和服务器进程2.进程与计算机网络之间的接口3. 进程寻址 2.1.3 可供应用程序使用…

Django响应‘表单请求’过程

&#xff08;1&#xff09;用户通过自己的浏览器&#xff08;客户端&#xff09;第一次向服务器发出含有表单页面的请求&#xff0c;Django会创建一个未绑定数据的表单实例&#xff08;例如form LoginForm(), form实例就是未绑定实例&#xff09;&#xff0c;即空表单&#xf…

哈希应用之布隆过滤器及其实现

文章目录 布隆过滤器模拟实现 布隆过滤器 我们在上一篇中主要说的是位图&#xff0c;是用于判断整形是否存在的一种应用&#xff0c;但是他不好的地方就是只能判断整形了&#xff0c;如果是字符串的话就难再应用了 在之前哈希表中&#xff0c;我们使用了一些哈希函数来将字符…

简单形容词high/low、strong/week、long/short 、heavy/light等前加relatively或comparatively

在论文写作中&#xff0c;不可避免要用到high、low、strong、week、heavy、light……这类简单形容词。要注意的是&#xff0c;直接使用这类形容词不仅语言乏味&#xff0c;而且表述有些不严谨&#xff0c;毕竟某事物high、low、strong、week、heavy、light等不是绝对的&#xf…

基于MSOGI的交叉对消谐波信号提取网络MATLAB仿真

微❤关注“电气仔推送”获得资料&#xff08;专享优惠&#xff09; 模型简介&#xff1a; 此模型利用二阶广义积分器&#xff08;SOGI&#xff09;对基波电流和相应次的谐波电流进行取 &#xff0c;具体是通过多个基于二阶广义积分器的正交信号发生器 &#xff08; S&#xf…

Linux 根据提交记录生成补丁及新旧文件对比

#!/bin/bash#解决/bin/bash^M: bad interpreter: Text file busy #sed -i s/\r$// test1.shCMD1$1 CMD2$2 CMD3$3 echo "CMD1 > $CMD1" echo "CMD2 > $CMD2" echo "CMD3 > $CMD3" # 运行时的入参 CMD1提交记录1 CMD2提交记录2 CMD3输出…

241 基于matlab的Dijkstra算法进行路径规划

基于matlab的Dijkstra算法进行路径规划。可根据实际情况输入障碍物和起止点坐标信息&#xff1b; 输出避碰最短路径&#xff1b; 能够利用切线图算法对障碍物区域进行环境建模&#xff0c;设置障碍物的位置和区域。利用Dijkstra算法进行路径规划。程序已调通&#xff0c;可直接…