模式识别-Ch2-高斯下判别函数

server/2025/1/11 21:46:45/

高斯密度下的判别函数

高斯分布

  1. 在给定均值和方差的所有分布中,正态分布的熵最大
  2. 根据Central Limit Theorem(中心极限定理),大量独立随机变量之和趋近正态分布
  3. 实际环境中,很多类别的特征分布趋近正态分布

多元正态分布: x = [ x 1 , x 2 , … , x d ] T ∈ R d , μ = [ μ 1 , μ 2 , … , μ d ] T ∈ R d \mathbf{x} = [x_1, x_2, \ldots, x_d]^T \in \mathbb{R}^d,\ \boldsymbol{\mu} = [\mu_1, \mu_2, \ldots, \mu_d]^T \in \mathbb{R}^d x=[x1,x2,,xd]TRd, μ=[μ1,μ2,,μd]TRd

Σ ∈ R d × d \boldsymbol{\Sigma} \in \mathbb{R}^{d\times d} ΣRd×d:
σ i j 2 = E { ( x i − μ i ) ( x j − μ j ) } = ∫ − ∞ + ∞ ∫ − ∞ + ∞ ( x i − μ i ) ( x j − μ j ) p ( x i , x j ) d x i d x j \sigma_{ij}^2 = E\{(x_{i} - \mu_{i})(x_{j} - \mu_{j})\} = \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} (x_{i} - \mu_{i})(x_{j} - \mu_{j}) p(x_{i}, x_{j}) dx_{i} dx_{j} σij2=E{(xiμi)(xjμj)}=++(xiμi)(xjμj)p(xi,xj)dxidxj
边际分布密度函数:
p ( x i ) = ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ p ( x ) d x 1 d x 2 ⋯ d x i − 1 d x i + 1 ⋯ d x d p(x_i) = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(\mathbf{x}) dx_1 dx_2 \cdots dx_{i - 1} dx_{i + 1} \cdots dx_d p(xi)=++p(x)dx1dx2dxi1dxi+1dxd

单变量正态分布多元正态分布
x ∼ N ( μ , σ 2 ) x \sim N(\mu, \sigma^2) xN(μ,σ2) x ∼ N p ( μ , Σ ) \mathbf{x} \sim N_p(\boldsymbol{\mu}, \boldsymbol{\Sigma}) xNp(μ,Σ)
密度函数$p(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp \left( - \frac{1}{2} \left( \frac{x - \mu}{\sigma} \right)^2 \right) $$p(\mathbf{x}) = \frac{1}{(2\pi)^{d/2} |\boldsymbol{\Sigma}
均值$\mu = E{x} = \int_{-\infty}^{+\infty} x p(x) d\mathbf{x} $ μ i = E { x i } = ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ x i p ( x ) d x 1 d x 2 ⋯ d x d μ = E { x } ∈ R d \mu_i = E\{x_i\} = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} x_i p(\mathbf{x}) d\mathbf{x}_1 d\mathbf{x}_2 \cdots d\mathbf{x}_d\\\boldsymbol{\mu} = E\{\mathbf{x}\} \in \mathbb{R}^d μi=E{xi}=++xip(x)dx1dx2dxdμ=E{x}Rd
方差$\sigma^2 = \int_{-\infty}^{+\infty} (x - \mu)^2 p(x) d\mathbf{x} $ Σ = E { ( x − μ ) ( x − μ ) T } = [ σ 11 2 σ 12 2 ⋯ σ 1 d 2 σ 12 2 σ 22 2 ⋯ σ 2 d 2 ⋮ ⋮ ⋱ ⋮ σ 1 d 2 σ 2 d 2 ⋯ σ d d 2 ] \boldsymbol{\Sigma} = E\{(\mathbf{x} - \boldsymbol{\mu})(\mathbf{x} - \boldsymbol{\mu})^T\} = \begin{bmatrix} \sigma_{11}^2 & \sigma_{12}^2 & \cdots & \sigma_{1d}^2 \\ \sigma_{12}^2 & \sigma_{22}^2 & \cdots & \sigma_{2d}^2 \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{1d}^2 & \sigma_{2d}^2 & \cdots & \sigma_{dd}^2 \end{bmatrix} Σ=E{(xμ)(xμ)T}= σ112σ122σ1d2σ122σ222σ2d2σ1d2σ2d2σdd2
性质$p(x) \geq 0,-\infty < x < +\infty,\\int_{-\infty}^{+\infty} p(x) d\mathbf{x} = 1 $ p ( x i ) = ∫ − ∞ + ∞ ⋯ ∫ − ∞ + ∞ p ( x ) d x 1 d x 2 ⋯ d x i − 1 d x i + 1 ⋯ d x d p(x_i) = \int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} p(\mathbf{x}) d\mathbf{x}_1 d\mathbf{x}_2 \cdots d\mathbf{x}_{i - 1} d\mathbf{x}_{i + 1} \cdots d\mathbf{x}_d p(xi)=++p(x)dx1dx2dxi1dxi+1dxd
等密度轨迹

等密度轨迹为一超椭球面。从多元正态分布函数可以看出,当其指数项等于常数时,密度 p ( x ) p(\mathbf{x}) p(x)的值不变,因此等函数点即为使如下方程为常数的点,即: $(\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) = const. $

Mahalanobis距离(马氏距离): r 2 = ( x − μ ) T Σ − 1 ( x − μ ) r^2=(\mathbf{x}-\mathbf{\mu})^T\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) r2=(xμ)TΣ1(xμ)

image-20241230094302701

性质
  1. 不相关性=独立性

  2. 边缘分布与条件分布均为正态分布

  3. 多元正态随机变量的线性变换(非奇异)仍为多元正态分布的随机变量

  4. 线性组合的正态性:若 x \mathbf{x} x为多元正态随机变量,则线性组合 y = a T x \mathbf{y} = \mathbf{a}^T \mathbf{x} y=aTx是一个一维正态随机变量。

  5. 对多元正态分布的协方差矩阵 Σ \Sigma Σ可以进行正交分解。

    1. Σ = U Λ U T \Sigma=U\Lambda U^T Σ=UΛUT
      U U U Λ \Lambda Λ对应特征值的特征向量构成的矩阵,属于 R ( Σ ) R(\Sigma) R(Σ)值域空间。
  6. 线性变换 y = A T x , y ∼ N ( A T μ , A T Σ A ) y=A^T\mathbf{x},\ y\sim N(A^T\mu,A^T\Sigma A) y=ATx, yN(ATμ,ATΣA)
    C o v ( A X ) = A C o v ( X ) A T 令 A w = U Λ − 1 / 2 , C o v ( A T X ) = Λ − 1 / 2 U Σ U Λ − 1 / 2 = Λ − 1 / 2 Λ Λ − 1 / 2 = I Cov(AX)=ACov(X)A^T\\ 令A_w=U\Lambda^{-1/2},Cov(A^TX)=\Lambda^{-1/2}U\Sigma U\Lambda^{-1/2}=\Lambda^{-1/2}\Lambda\Lambda^{-1/2}=I Cov(AX)=ACov(X)ATAw=UΛ1/2,Cov(ATX)=Λ1/2UΣUΛ1/2=Λ1/2ΛΛ1/2=I
    白化变换:对 Σ \Sigma Σ进行归一化变成 I I I.

最小错误率贝叶斯决策

对于 c c c类问题,假定各类条件概率密度函数为多元正态分布:
p ( x ∣ ω i ) ∼ N ( μ i , Σ i ) , i = 1 , 2 , … , c p(\mathbf{x}|\omega_i) \sim N(\boldsymbol{\mu}_i, \boldsymbol{\Sigma}_i), \quad i = 1,2,\ldots,c p(xωi)N(μi,Σi),i=1,2,,c
判别函数(Quadratic discrimin function (QDF)):$(i = 1,2,\ldots,c) $
g i ( x ) = ln ⁡ ( p ( x ∣ ω i ) ) + ln ⁡ ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − d 2 ln ⁡ ( 2 π ) − 1 2 ln ⁡ ( ∣ Σ i ∣ ) + ln ⁡ ( P ( ω i ) ) \begin{align}g_i(\mathbf{x})&=\ln(p(\mathbf{x}|\omega_i))+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i)) \end{align} gi(x)=ln(p(xωi))+ln(P(ωi))=21(xμi)TΣi1(xμi)2dln(2π)21ln(Σi)+ln(P(ωi))
决策面方程 :
g i ( x ) = g j ( x ) − 1 2 ( ( x − μ i ) T Σ i − 1 ( x − μ i ) − ( x − μ j ) T Σ j − 1 ( x − μ j ) ) − 1 2 ln ⁡ ( ∣ Σ i ∣ ∣ Σ j ∣ ) + ln ⁡ ( P ( ω i ) P ( ω j ) ) = 0 g_i(\mathbf{x})=g_j(\mathbf{x})\\ -\frac{1}{2}\left((\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-(\mathbf{x}-\boldsymbol{\mu}_j)^T\boldsymbol{\Sigma}_j^{-1}(\mathbf{x}-\boldsymbol{\mu}_j)\right)-\frac{1}{2}\ln\left(\frac{|\boldsymbol{\Sigma}_i|}{|\boldsymbol{\Sigma}_j|}\right)+\ln\left(\frac{P(\omega_i)}{P(\omega_j)}\right)=0 gi(x)=gj(x)21((xμi)TΣi1(xμi)(xμj)TΣj1(xμj))21ln(ΣjΣi)+ln(P(ωj)P(ωi))=0

第一种情形: Σ i = σ 2 I , i = 1 , 2 , … , c \boldsymbol{\Sigma}_i=\sigma^2\mathbf{I}, \quad i = 1,2,\ldots,c Σi=σ2I,i=1,2,,c

这表明每个特征向量对应的方差都是独立同分布。

协方差矩阵:
Σ i = [ σ 2 0 ⋯ 0 0 σ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ σ 2 ] , ∣ Σ i ∣ = σ 2 d , Σ i − 1 = 1 σ 2 I \boldsymbol{\Sigma}_i=\begin{bmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{bmatrix}, \quad |\boldsymbol{\Sigma}_i|=\sigma^{2d}, \quad \boldsymbol{\Sigma}_i^{-1}=\frac{1}{\sigma^2}\mathbf{I} Σi= σ2000σ2000σ2 ,Σi=σ2d,Σi1=σ21I
判别函数(Quadratic discrimin function (QDF)):
g i ( x ) = − 1 2 σ 2 ( x − μ i ) T ( x − μ i ) − d 2 ln ⁡ ( 2 π ) − 1 2 ln ⁡ ( σ 2 d ) + ln ⁡ ( P ( w i ) ) = − 1 2 σ 2 ( x − μ i ) T ( x − μ i ) + ln ⁡ ( P ( w i ) ) = − 1 2 σ 2 ∥ x − μ i ∥ 2 2 + ln ⁡ ( P ( w i ) ) \begin{align}g_i(\mathbf{x})&=-\frac{1}{2\sigma^2}(\mathbf{x}-\boldsymbol{\mu}_i)^T(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(\sigma^{2d})+\ln(P(w_i))\\ &=-\frac{1}{2\sigma^2}(\mathbf{x}-\boldsymbol{\mu}_i)^T(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(w_i))\\ &=-\frac{1}{2\sigma^2}\|\mathbf{x}-\boldsymbol{\mu}_i\|^2_2+\ln(P(w_i)) \end{align} gi(x)=2σ21(xμi)T(xμi)2dln(2π)21ln(σ2d)+ln(P(wi))=2σ21(xμi)T(xμi)+ln(P(wi))=2σ21xμi22+ln(P(wi))

先验概率相等: P ( w i ) = P ( w j ) P(w_i)=P(w_j) P(wi)=P(wj)

此时,判别函数可进一步简化为:
g i ( x ) = − 1 2 σ 2 ∥ x − μ i ∥ 2 2 g_i(\mathbf{x})=-\frac{1}{2\sigma^2}\|\mathbf{x}-\boldsymbol{\mu}_i\|^2_2 gi(x)=2σ21xμi22
因此,最小错误率贝叶斯规则相当简单:

若要对样本 x \mathbf{x} x进行分类,只需要计算 x \mathbf{x} x到各类均值向量的欧氏距离平方,然后将归于距离最短的一类:
arg ⁡ min ⁡ i = 1 , 2 , … , c ∥ x − μ i ∥ 2 \arg\min_{i = 1,2,\ldots,c}\|\mathbf{x}-\boldsymbol{\mu}_i\|^2 argi=1,2,,cminxμi2
这种分类器称为最小距离分类器。

计算欧式距离即可

先验概率不相等: P ( w i ) ≠ P ( w j ) P(w_i)\neq P(w_j) P(wi)=P(wj)

判别函数:
g i ( x ) = − 1 2 σ 2 ( x − μ i ) T ( x − μ i ) + ln ⁡ ( P ( w i ) ) = − 1 2 σ 2 ( x T x − 2 μ i T x + μ i T μ i ) + ln ⁡ ( P ( w i ) ) = 1 σ 2 μ i T x − 1 2 σ 2 μ i T μ i + ln ⁡ ( P ( w i ) ) = w i T x + w i 0 \begin{align}g_i(\mathbf{x})&=-\frac{1}{2\sigma^2}(\mathbf{x}-\boldsymbol{\mu}_i)^T(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(w_i))\\ &=-\frac{1}{2\sigma^2}(\mathbf{x}^T\mathbf{x}-2\boldsymbol{\mu}_i^T\mathbf{x}+\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i)+\ln(P(w_i))\\ &=\frac{1}{\sigma^2}\boldsymbol{\mu}_i^T\mathbf{x}-\frac{1}{2\sigma^2}\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i+\ln(P(w_i))\\ &= \mathbf{w}_i^T\mathbf{x}+\mathrm w_{i0} \end{align} gi(x)=2σ21(xμi)T(xμi)+ln(P(wi))=2σ21(xTx2μiTx+μiTμi)+ln(P(wi))=σ21μiTx2σ21μiTμi+ln(P(wi))=wiTx+wi0
由于每一类的判别函数均包含 x T x \mathbf{x}^T\mathbf{x} xTx,与下标 i i i无关,因此可以进一步简化为线性判别函数,得到判别函数 g i ( x ) g_i(\mathbf{x}) gi(x) x \mathbf{x} x的线性函数。
g i ( x ) = w i T x + w i 0 { w i = 1 σ 2 μ i w i 0 = ln ⁡ ( P ( w i ) ) − 1 2 σ 2 μ i T μ i g_i(x)=\mathbf{w}_i^T\mathbf{x}+\mathrm w_{i0}\\ \begin{cases}\mathbf{w}_i&=\frac{1}{\sigma^2}\boldsymbol{\mu}_i\\ \mathrm w_{i0}&=\ln(P(w_i))-\frac{1}{2\sigma^2}\boldsymbol{\mu}_i^T\boldsymbol{\mu}_i\end{cases} gi(x)=wiTx+wi0{wiwi0=σ21μi=ln(P(wi))2σ21μiTμi

决策规则: 若 g k ( x ) = max ⁡ i g i ( x ) g_k(\mathbf{x})=\max_{i}g_i(\mathbf{x}) gk(x)=maxigi(x),则 x ∈ w k \mathbf{x}\in w_k xwk
  • 判别函数为线性函数的分类器称为线性分类器。

  • 线性分类器的决策面方程为: g i ( x ) − g j ( x ) = 0 g_i(\mathbf{x}) - g_j(\mathbf{x})=0 gi(x)gj(x)=0所确定的一个超平面。
    g i ( x ) − g j ( x ) = 0 ⇒ w T ( x − x 0 ) = 0 g_i(\mathbf{x})-g_j(\mathbf{x})=0 \Rightarrow \mathbf{w}^T(\mathbf{x}-\mathbf{x}_0)=0 gi(x)gj(x)=0wT(xx0)=0

    先验概率相等 P ( w i ) = P ( w j ) P(w_i)=P(w_j) P(wi)=P(wj)先验概率不等 P ( w i ) ≠ P ( w j ) P(w_i)\neq P(w_j) P(wi)=P(wj)
    w = μ i − μ j \mathbf{w}=\boldsymbol{\mu}_i - \boldsymbol{\mu}_j w=μiμj w = μ i − μ j \mathbf{w}=\boldsymbol{\mu}_i - \boldsymbol{\mu}_j w=μiμj
    x 0 = 1 2 ( μ i + μ j ) \mathbf{x}_0=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j) x0=21(μi+μj)KaTeX parse error: {align} can be used only in display mode.

image-20241230110444219

先验概率相等:取欧式距离的中点划分。

先验概率不等:根据 s i j s_{ij} sij的大小会偏斜 先验概率较小的一边。

  • P ( w i ) > P ( w j ) , s i j > 0 P(w_i)> P(w_j),s_{ij}>0 P(wi)>P(wj),sij>0: 会向 R j R_j Rj偏.
  • P ( w i ) < P ( w j ) , s i j > 0 P(w_i)< P(w_j),s_{ij}>0 P(wi)<P(wj),sij>0: 会向 R i R_i Ri偏.
第二种情形: Σ i = Σ , i = 1 , 2 , … , c \boldsymbol{\Sigma}_i=\boldsymbol{\Sigma}, \quad i = 1,2,\ldots,c Σi=Σ,i=1,2,,c

各类的协方差矩阵均相等。从几何上看,相当于各类样本集中于以该类均值 μ i \boldsymbol{\mu}_i μi为中心但大小和形状相同的椭球内。

判别函数(Quadratic discriminant function (QDF)):
g i ( x ) = ln ⁡ ( p ( x ∣ ω i ) ) + ln ⁡ ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) − d 2 ln ⁡ ( 2 π ) − 1 2 ln ⁡ ( ∣ Σ ∣ ) + ln ⁡ ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) + ln ⁡ ( P ( ω i ) ) \begin{align}g_i(\mathbf{x})&=\ln(p(\mathbf{x}|\omega_i))+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}|)+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(\omega_i)) \end{align} gi(x)=ln(p(xωi))+ln(P(ωi))=21(xμi)TΣ1(xμi)2dln(2π)21ln(Σ)+ln(P(ωi))=21(xμi)TΣ1(xμi)+ln(P(ωi))

先验概率相等: P ( w i ) = P ( w j ) P(w_i)=P(w_j) P(wi)=P(wj)

判别函数:
g i ( x ) = r 2 = ( x − μ i ) T Σ − 1 ( x − μ i ) g_i(\mathbf{x})=r^2 = (\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i) gi(x)=r2=(xμi)TΣ1(xμi)
决策规则: 若要对样本 x \mathbf{x} x进行分类,只需要计算 x \mathbf{x} x到各类均值向量的马氏距离平方,然后将归于距离最短的一类:
arg ⁡ min ⁡ i = 1 , 2 , … , c ( x − μ i ) T Σ − 1 ( x − μ i ) \arg\min_{i = 1,2,\ldots,c}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i) argi=1,2,,cmin(xμi)TΣ1(xμi)

先验概率不相等: P ( w i ) ≠ P ( w j ) P(w_i)\neq P(w_j) P(wi)=P(wj)

判别函数:
g i ( x ) = − 1 2 ( x − μ i ) T Σ − 1 ( x − μ i ) + ln ⁡ ( P ( ω i ) ) = − 1 2 ( x T Σ − 1 x − 2 μ i T Σ − 1 x + μ i T Σ − 1 μ i ) + ln ⁡ ( P ( ω i ) ) = μ i Σ − 1 x − 1 2 μ i T Σ − 1 μ i + ln ⁡ ( P ( ω i ) ) = w i T x + w i 0 { w i = Σ − 1 μ i w i 0 = ln ⁡ ( P ( ω i ) ) − 1 2 μ i T Σ − 1 μ i \ \begin{align} g_i(\mathbf{x})&=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)+\ln(P(\omega_i)) \\ &=-\frac{1}{2}(\mathbf{x}^T\boldsymbol{\Sigma}^{-1}\mathbf{x}-2\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\mathbf{x}+\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i)+\ln(P(\omega_i)) \\ &=\boldsymbol\mu_i\boldsymbol\Sigma^{-1}\mathbf{x}-\frac 1 2 \boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i+\ln(P(\omega_i)) \\ &=\mathbf{w}_i^T\mathbf{x}+\mathrm w_{i0}\\\\ &\begin{cases} \mathbf{w}_i&=\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i\\ \mathrm w_{i0}&=\ln(P(\omega_i))-\frac{1}{2}\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}^{-1}\boldsymbol{\mu}_i \end{cases} \end{align}  gi(x)=21(xμi)TΣ1(xμi)+ln(P(ωi))=21(xTΣ1x2μiTΣ1x+μiTΣ1μi)+ln(P(ωi))=μiΣ1x21μiTΣ1μi+ln(P(ωi))=wiTx+wi0{wiwi0=Σ1μi=ln(P(ωi))21μiTΣ1μi

决策面方程: g i ( x ) − g j ( x ) = 0 g_i(\mathbf{x})-g_j(\mathbf{x})=0 gi(x)gj(x)=0

展开可得: w T ( x − x 0 ) = 0 \mathbf{w}^T(\mathbf{x}-\mathbf{x}_0)=0 wT(xx0)=0 ( 这是线性判别函数 )

先验概率相等 P ( w i ) = P ( w j ) P(w_i)=P(w_j) P(wi)=P(wj)先验概率不相等 P ( w i ) ≠ P ( w j ) P(w_i)\neq P(w_j) P(wi)=P(wj)
w = Σ − 1 ( μ i − μ j ) \mathbf{w}=\boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j) w=Σ1(μiμj) w = Σ − 1 ( μ i − μ j ) \mathbf{w}=\boldsymbol{\Sigma}^{-1}(\boldsymbol{\mu}_i-\boldsymbol{\mu}_j) w=Σ1(μiμj)
x 0 = 1 2 ( μ i + μ j ) \mathbf{x}_0=\frac{1}{2}(\boldsymbol{\mu}_i+\boldsymbol{\mu}_j) x0=21(μi+μj)KaTeX parse error: {align} can be used only in display mode.

image-20241230114735420

第三种情形: Σ i ≠ Σ j , i , j = 1 , 2 , … , c \boldsymbol{\Sigma}_i\neq\boldsymbol{\Sigma}_j, \quad i,j = 1,2,\ldots,c Σi=Σj,i,j=1,2,,c

判别函数:
g i ( x ) = ln ⁡ ( p ( x ∣ ω i ) ) + ln ⁡ ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − d 2 ln ⁡ ( 2 π ) − 1 2 ln ⁡ ( ∣ Σ i ∣ ) + ln ⁡ ( P ( ω i ) ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − 1 2 ln ⁡ ( ∣ Σ i ∣ ) + ln ⁡ ( P ( ω i ) ) = x T W i x + w i T x + w i 0 { W i = − 1 2 Σ i − 1 w i = Σ i − 1 μ i w i 0 = − 1 2 μ i T Σ i − 1 μ i − 1 2 ln ⁡ ( ∣ Σ i ∣ ) + ln ⁡ ( P ( ω i ) ) \begin{align}g_i(\mathbf{x})&=\ln(p(\mathbf{x}|\omega_i))+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{d}{2}\ln(2\pi)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i))\\ &=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i))\\ &=\mathbf{x}^T\mathbf{W}_i\mathbf{x}+\mathbf{w}_i^T\mathbf{x}+\mathrm w_{i0}\\ &\begin{cases} \mathbf{W}_i &= -\frac{1}{2}\boldsymbol{\Sigma}_i^{-1}\\ \mathbf{w}_i&=\boldsymbol{\Sigma}_i^{-1}\boldsymbol{\mu}_i\\ \mathrm w_{i0}&=-\frac{1}{2}\boldsymbol{\mu}_i^T\boldsymbol{\Sigma}_i^{-1}\boldsymbol{\mu}_i-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i)) \end{cases} \end{align} gi(x)=ln(p(xωi))+ln(P(ωi))=21(xμi)TΣi1(xμi)2dln(2π)21ln(Σi)+ln(P(ωi))=21(xμi)TΣi1(xμi)21ln(Σi)+ln(P(ωi))=xTWix+wiTx+wi0 Wiwiwi0=21Σi1=Σi1μi=21μiTΣi1μi21ln(Σi)+ln(P(ωi))
决策方程:
g i ( x ) − g j ( x ) = 0 x T ( W i − W j ) x + ( w i − w j ) T x + w i 0 − w j 0 = 0 g_i(\mathbf{x})-g_j(\mathbf{x})=0\\ \mathbf{x}^T(\mathbf{W}_i-\mathbf{W}_j)\mathbf{x}+(\mathbf{w}_i-\mathbf{w}_j)^T\mathbf{x}+w_{i0}-w_{j0}=0 gi(x)gj(x)=0xT(WiWj)x+(wiwj)Tx+wi0wj0=0
决策面为一个超二次曲面。随着 Σ i \boldsymbol{\Sigma}_i Σi μ i \boldsymbol{\mu}_i μi P ( w i ) P(w_i) P(wi)等的不同而呈现出超球面、超椭球面、超双曲面或超平面等不同的情形。

例子: c=2, 2D

P ( ω 1 ) = P ( ω 2 ) = 0.5 μ 1 = [ 3 6 ] ; Σ 1 = [ 1 / 2 0 0 2 ] ; Σ 1 − 1 = [ 2 0 0 1 / 2 ] μ 2 = [ 3 − 2 ] ; Σ 2 = [ 2 0 0 2 ] ; Σ 2 − 1 = [ 1 / 2 0 0 1 / 2 ] P(\omega_1)=P(\omega_2)=0.5\\\boldsymbol{\mu}_1 = \begin{bmatrix} 3 \\ 6 \end{bmatrix} ; \boldsymbol{\Sigma}_1 = \begin{bmatrix} 1/2 & 0 \\ 0 & 2 \end{bmatrix} ; \boldsymbol{\Sigma}_1^{-1} = \begin{bmatrix} 2 & 0 \\ 0 & 1/2 \end{bmatrix}\\ \boldsymbol{\mu}_2 = \begin{bmatrix} 3 \\ -2 \end{bmatrix} ; \boldsymbol{\Sigma}_2 = \begin{bmatrix} 2 & 0 \\ 0 & 2 \end{bmatrix} ; \boldsymbol{\Sigma}_2^{-1} = \begin{bmatrix} 1/2 & 0 \\ 0 & 1/2 \end{bmatrix} P(ω1)=P(ω2)=0.5μ1=[36];Σ1=[1/2002];Σ11=[2001/2]μ2=[32];Σ2=[2002];Σ21=[1/2001/2]

对于两类问题, Σ i ≠ Σ j \boldsymbol{\Sigma}_i\neq\boldsymbol{\Sigma}_j Σi=Σj,先验相等。
g i ( x ) = − 1 2 ( x − μ i ) T Σ i − 1 ( x − μ i ) − 1 2 ln ⁡ ( ∣ Σ i ∣ ) + ln ⁡ ( P ( ω i ) ) g_i(\mathbf{x})=-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu}_i)^T\boldsymbol{\Sigma}_i^{-1}(\mathbf{x}-\boldsymbol{\mu}_i)-\frac{1}{2}\ln(|\boldsymbol{\Sigma}_i|)+\ln(P(\omega_i)) gi(x)=21(xμi)TΣi1(xμi)21ln(Σi)+ln(P(ωi))
决策面方程为 g 1 ( x ) − g 2 ( x ) = 0 g_1(\mathbf{x}) - g_2(\mathbf{x}) = 0 g1(x)g2(x)=0
( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) + ln ⁡ ( ∣ Σ 1 ∣ ) = ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) + ln ⁡ ( ∣ Σ 2 ∣ ) ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) = ( x 1 − 3 , x 2 − 6 ) [ 2 0 0 1 / 2 ] [ x 1 − 3 x 2 − 6 ] ln ⁡ ( ∣ Σ 1 ∣ ) = ln ⁡ ( 1 ) = 0 , ln ⁡ ( ∣ Σ 2 ∣ ) = ln ⁡ ( 4 ) = 2 ln ⁡ ( 2 ) ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) = ( x 1 − 3 , x 2 + 2 ) [ 1 / 2 0 0 1 / 2 ] [ x 1 − 3 x 2 + 2 ] (\mathbf{x}-\boldsymbol{\mu}_1)^T\boldsymbol{\Sigma}_1^{-1}(\mathbf{x}-\boldsymbol{\mu}_1)+\ln(|\boldsymbol{\Sigma}_1|)=(\mathbf{x}-\boldsymbol{\mu}_2)^T\boldsymbol{\Sigma}_2^{-1}(\mathbf{x}-\boldsymbol{\mu}_2)+\ln(|\boldsymbol{\Sigma}_2|)\\ (\mathbf{x}-\boldsymbol{\mu}_1)^T\boldsymbol{\Sigma}_1^{-1}(\mathbf{x}-\boldsymbol{\mu}_1)=(x_1 - 3, x_2 - 6)\left[\begin{matrix}2&0\\0&1/2\end{matrix}\right]\left[\begin{matrix}x_1 - 3\\x_2 - 6\end{matrix}\right]\\ \ln(|\boldsymbol{\Sigma}_1|)=\ln(1)=0,\ln(|\boldsymbol{\Sigma}_2|)=\ln(4)=2\ln(2)\\ (\mathbf{x}-\boldsymbol{\mu}_2)^T\boldsymbol{\Sigma}_2^{-1}(\mathbf{x}-\boldsymbol{\mu}_2)=(x_1 - 3, x_2 + 2)\left[\begin{matrix}1/2&0\\0&1/2\end{matrix}\right]\left[\begin{matrix}x_1 - 3\\ x_2 + 2\end{matrix}\right]\\ (xμ1)TΣ11(xμ1)+ln(Σ1)=(xμ2)TΣ21(xμ2)+ln(Σ2)(xμ1)TΣ11(xμ1)=(x13,x26)[2001/2][x13x26]ln(Σ1)=ln(1)=0,ln(Σ2)=ln(4)=2ln(2)(xμ2)TΣ21(xμ2)=(x13,x2+2)[1/2001/2][x13x2+2]

− ( 2 ( x 1 − 3 ) 2 + 1 2 ( x 2 − 6 ) 2 ) + ( 1 2 ( x 1 − 3 ) 2 + 1 2 ( x 2 + 2 ) 2 ) + 2 ln ⁡ ( 2 ) = 0 − 2 ( x 1 − 3 ) 2 − 1 2 ( x 2 − 6 ) 2 + 1 2 ( x 1 − 3 ) 2 + 1 2 ( x 2 + 2 ) 2 + 2 ln ⁡ ( 2 ) = 0 ( − 2 + 1 2 ) ( x 1 − 3 ) 2 − 1 2 ( x 2 − 6 ) 2 + 1 2 ( x 2 + 2 ) 2 + 2 ln ⁡ ( 2 ) = 0 − 3 2 ( x 1 − 3 ) 2 + 8 x 2 − 16 + 2 ln ⁡ 2 = 0 -(2(x_1 - 3)^2+\frac{1}{2}(x_2 - 6)^2)+(\frac{1}{2}(x_1 - 3)^2+\frac{1}{2}(x_2 + 2)^2)+2\ln(2)=0\\ -2(x_1 - 3)^2-\frac{1}{2}(x_2 - 6)^2+\frac{1}{2}(x_1 - 3)^2+\frac{1}{2}(x_2 + 2)^2+2\ln(2)=0\\ (-2 + \frac{1}{2})(x_1 - 3)^2-\frac{1}{2}(x_2 - 6)^2+\frac{1}{2}(x_2 + 2)^2+2\ln(2)=0\\ -\frac{3}{2}(x_1 - 3)^2+8x_2-16+2\ln2=0 (2(x13)2+21(x26)2)+(21(x13)2+21(x2+2)2)+2ln(2)=02(x13)221(x26)2+21(x13)2+21(x2+2)2+2ln(2)=0(2+21)(x13)221(x26)2+21(x2+2)2+2ln(2)=023(x13)2+8x216+2ln2=0

所以,此例子的决策面方程为 x 2 = 3.514 − 1.125 x 1 + 0.1875 x 1 2 x2=3.514-1.125x_1+0.1875x_1^2 x2=3.5141.125x1+0.1875x12

image-20241231131220483


http://www.ppmy.cn/server/157580.html

相关文章

中学综合素质笔记3

第一章职业理念 第三节 教师观 考情提示&#xff1a; 单选题材料分析题 学习要求&#xff1a; 理解、 识记、 运用 &#xff08;一&#xff09;教师职业角色的转变&#xff08;单选材料分析&#xff09; 从教师与学生的关系看——对学生 新课程要求教师应该是学生学习的引…

【网络安全 | 漏洞挖掘】通过监控调试模式实现价值$15k的RCE

未经许可,不得转载。 前言 你是否曾遇到过这样一种情况:明明发现了一个可疑的端点,直觉告诉你它可能存在漏洞,但却无法确定其背后的逻辑,更不用说利用它了?在这篇文章中,我将分享一种技术,它让我的黑盒测试变得如同半白盒测试。这种方法帮助我发现了多个漏洞,并最终实…

自然语言处理基础:全面概述

自然语言处理基础&#xff1a;全面概述 什么是NLP及其重要性、NLP的核心组件、NLU与NLG、NLU与NLG的集成、NLP的挑战以及NLP的未来 自然语言处理&#xff08;NLP&#xff09;是人工智能&#xff08;AI&#xff09;中最引人入胜且具有影响力的领域之一。它驱动着我们日常使用的…

机器学习之避免过拟合的验证方法

在机器学习中,评估模型性能和避免过拟合的关键是选择合适的验证方法。以下是留出法、k折交叉验证法、留1法和自助法的详细介绍。 1. 留出法(Hold-out Method) 定义 将数据集分为两部分:训练集和测试集。 一部分数据用于训练模型。剩余数据用于测试模型的泛化性能。步骤 按…

解决GitHub上的README.md文件的图片内容不能正常显示问题

一、问题描述 我们将项目推送到GitHub上后&#xff0c;原本在本地编写配置好可展现的相对路径图片内容&#xff0c;到了GitHub上却不能够正常显示图片内容&#xff0c;我们希望能够在GitHub上正常显示图片&#xff0c;如下图所示&#xff1a; 二、问题分析 现状&#xff1a;REA…

Python基础知识回顾-数据结构

Tuple 在 Python 中&#xff0c;我们经常使用 Tuple 来将相关数据分组。Tuple 指的是有序且不可变的元素集合。 形式&#xff1a;通常以逗号分隔的元素写在括号"() "中。 数据类型和索引&#xff1a;包含 String、整数和浮点数&#xff0c;并使用正索引和负索引访问…

buildroot ffmpeg 及 PJSIP安装使用详解

目录 buildroot pjsip安装编译声卡验证 buildroot ffmpeg常用命令arecord & aplay 声卡调测命令开发板接USB音箱开发板自带音箱 硬件&#xff1a; rk3568平台&#xff0c; 系统: buildroot&#xff0c; 交叉编译pjsip&#xff0c;并介绍pjsip录放音常用测试验证命令&#x…

从SS到CSS:探索网页样式设计的奥秘

一、什么是CSS CSS&#xff0c;全称为层叠样式表&#xff08;Cascading Style Sheets&#xff09;&#xff0c;是一种用于描述HTML&#xff08;超文本标记语言&#xff09;或XML&#xff08;包括如SVG、MathML等各种XML方言&#xff09;文档样式的样式表语言。 从结构和功能的…