文章目录
- 一、基于梯度的方法
- 二、均方误差最小算法
- 三、支持向量机 (SVM)
一、基于梯度的方法
梯度概念
设函数 f ( Y ) f(Y) f(Y) 是向量 Y = [ y 1 , y 2 , … , y n ] T Y = [y_1, y_2, \dots, y_n]^T Y=[y1,y2,…,yn]T 的函数,则 f ( Y ) f(Y) f(Y) 的梯度定义为:
∇ f ( Y ) = d d Y f ( Y ) = [ ∂ f ∂ y 1 , ∂ f ∂ y 2 , … , ∂ f ∂ y n ] T \nabla f(Y) = \frac{d}{dY} f(Y) = \begin{bmatrix} \frac{\partial f}{\partial y_1}, \frac{\partial f}{\partial y_2}, \dots, \frac{\partial f}{\partial y_n} \end{bmatrix}^T ∇f(Y)=dYdf(Y)=[∂y1∂f,∂y2∂f,…,∂yn∂f]T
梯度向量的重要性质之一:指出函数 f ( Y ) f(Y) f(Y) 在其自变量增加时,增长最快的方向。即:
- 梯度的方向是函数 f ( Y ) f(Y) f(Y) 在 Y Y Y 点增长最快的方向,
- 梯度的模是 f ( Y ) f(Y) f(Y) 在增长最快的方向上的增长率(增长率最大值)。
显然:负梯度指向了最快下降方向。——梯度算法的依据。
判断函数: 设两个线性可分的模式类别 ω 1 \omega_1 ω1 和 ω 2 \omega_2 ω2 的样本共有 N N N 个,将两类样本分开的判别函数 d ( X ) d(X) d(X) 应满足:
d ( X i ) = W T X i > 0 , i = 1 , 2 , … , N d(X_i) = W^T X_i > 0, \quad i = 1, 2, \dots, N d(Xi)=WTXi>0,i=1,2,…,N
即 N N N 个不等式。梯度算法的目的是求一个满足上述条件的权向量,主导思想是将联立不等式求解 W W W 的问题,转换成求准则函数极小值的问题。用负梯度方向的值对权向量 W W W 进行修正,实现使准则函数达到极小值的目的。
基本思路:
定义一个对错误分类敏感的准则函数 J ( W , X ) J(W, X) J(W,X),在 J J J 的梯度方向上对权向量进行修正。一般关系表示成从 W ( k ) W^{(k)} W(k) 导出 W ( k + 1 ) W^{(k+1)} W(k+1):
W ( k + 1 ) = W ( k ) + c ( − ∇ J ) = W ( k ) − c ∇ J W(k+1) = W(k) + c(-\nabla J) = W(k) - c\nabla J W(k+1)=W(k)+c(−∇J)=W(k)−c∇J
即:
W ( k + 1 ) = W ( k ) − c [ ∂ J ( W , X ) ∂ W ] W = W ( k ) W(k+1) = W(k) - c \left[\frac{\partial J(W, X)}{\partial W}\right]_{W=W^{(k)}} W(k+1)=W(k)−c[∂W∂J(W,X)]W=W(k)
其中 c c c 是正的比例因子。
梯度法求解步骤:
-
将样本写成规范化增广向量形式,选择准则函数,设置初始权向量 W ( 1 ) W(1) W(1),括号内为迭代次数 k = 1 k=1 k=1。
-
依次输入训练样本 X X X。设第 k k k 次迭代时输入样本为 X i X_i Xi,此时已有权向量 W ( k ) W(k) W(k),求 ∇ J ( k ) \nabla J(k) ∇J(k):
∇ J ( k ) = ∂ J ( W , X i ) ∂ W \nabla J(k) = \frac{\partial J(W, X_i)}{\partial W} ∇J(k)=∂W∂J(W,Xi)
权向量修正为:
W ( k + 1 ) = W ( k ) − c ∇ J ( k ) W(k+1) = W(k) - c\nabla J(k) W(k+1)=W(k)−c∇J(k)
迭代次数加 1,输入下一个训练样本,计算新的权向量,直至对全部训练样本完成一轮迭代。
- 在一轮迭代中,如果有一个样本使 ∇ J ≠ 0 \nabla J \neq 0 ∇J=0,回到步骤 2 进行下一轮迭代。否则, W W W 不再变化,算法收敛。
例: 选择准则函数, J ( W , X ) = ∣ W T X ∣ − W T X J(W, X) = |W^T X| - W^T X J(W,X)=∣WTX∣−WTX,简单地考虑 X X X 为一维增广模式的情况 X = 1 X=1 X=1,此时 W = w W = w W=w,两者均为标量,
J ( W , X ) = ∣ w ∣ − w J(W, X) = |w| - w J(W,X)=∣w∣−w
错误分类时:
W T X < 0 ⇒ w ⋅ 1 < 0 ⇒ w < 0 W^T X < 0 \Rightarrow w \cdot 1 < 0 \Rightarrow w < 0 WTX<0⇒w⋅1<0⇒w<0
∇ J = ∂ J ( W , X ) ∂ W = ∂ ( ∣ w ∣ − w ) ∂ w = 2 w \nabla J = \frac{\partial J(W, X)}{\partial W} = \frac{\partial (|w| - w)}{\partial w} = 2w ∇J=∂W∂J(W,X)=∂w∂(∣w∣−w)=2w
W ( k + 1 ) = W ( k ) − c ⋅ ( − 2 ) = W ( k ) + 2 c W(k+1) = W(k) - c \cdot (-2) = W(k) + 2c W(k+1)=W(k)−c⋅(−2)=W(k)+2c
正确分类时:
W T X > 0 ⇒ w ⋅ 1 > 0 ⇒ w > 0 W^T X > 0 \Rightarrow w \cdot 1 > 0 \Rightarrow w > 0 WTX>0⇒w⋅1>0⇒w>0
∇ J = ∂ J ( W , X ) ∂ W = 0 \nabla J = \frac{\partial J(W, X)}{\partial W} = 0 ∇J=∂W∂J(W,X)=0
W ( k + 1 ) = W ( k ) W(k+1) = W(k) W(k+1)=W(k)
梯度下降法中的注意点
a) 权向量更新公式
权向量的更新公式为:
W ( k + 1 ) = W ( k ) − c ∇ J = W ( k ) − c [ ∂ J ( W , X ) ∂ W ] W = W ( k ) W(k+1) = W(k) - c \nabla J = W(k) - c \left[ \frac{\partial J(W, X)}{\partial W} \right]_{W=W(k)} W(k+1)=W(k)−c∇J=W(k)−c[∂W∂J(W,X)]W=W(k)
随着权向量 W W W 向理论值接近,准则函数关于 W W W 的导数( ∇ J \nabla J ∇J)越来越接近于零。这意味着准则函数 J J J 越来越接近最小值。当最终 ∇ J = 0 \nabla J = 0 ∇J=0 时, J J J 达到最小值,此时 W W W 不再改变,算法收敛。
核心思想: 将感知器算法中联立不等式求解 W W W 的问题,转换为求函数 J J J 极小值的问题。
b) 比例因子 c c c 的选择
比例因子 c c c 的选取非常重要:
- 如果 c c c 值太小,收敛速度会非常慢;
- 如果 c c c 值太大,可能导致搜索过程震荡,甚至引起发散。
因此需要对 c c c 进行适当的选择,确保算法稳定高效。
c) 梯度下降法的通用性
梯度算法是求解权向量的通用解法,具体计算形式取决于准则函数 J ( W , X ) J(W, X) J(W,X) 的选择。根据 J ( W , X ) J(W, X) J(W,X) 的形式不同,得到的具体算法也不同。
二、均方误差最小算法
回顾:收敛问题分析
在感知器算法、梯度算法、固定增量算法或其他类似方法中,仅当模式类可分离时才能收敛。在不可分的情况下,算法可能出现以下问题:
- 算法回摆动,始终不收敛;
- 一次次迭代后依然不见收敛。
原因:
- a) 迭代过程本身收敛缓慢;
- b) 模式本身不可分。
LMSE 算法特点
- 对可分模式收敛。
- 对于类别不可分的情况,也能指出问题所在。
两类分类问题的线性不等式解
假设给出两类模式 ω 1 \omega_1 ω1 和 ω 2 \omega_2 ω2 的训练样本集 { X i , i = 1 , 2 , … , N } \{X_i, i = 1, 2, \dots, N\} {Xi,i=1,2,…,N},需要满足以下线性不等式:
W T X i > 0 , i = 1 , 2 , … , N W^T X_i > 0, \quad i = 1, 2, \dots, N WTXi>0,i=1,2,…,N
其中, X i X_i Xi 为归一化增广样本向量,定义为:
X i = [ x i 1 , x i 2 , … , x i n , 1 ] T X_i = [x_{i1}, x_{i2}, \dots, x_{in}, 1]^T Xi=[xi1,xi2,…,xin,1]T
展开形式
将上述不等式展开,可表示为:
ω 1 类: { w 1 x 11 + w 2 x 12 + ⋯ + w n x 1 n + w n + 1 > 0 对 X 1 w 1 x 21 + w 2 x 22 + ⋯ + w n x 2 n + w n + 1 > 0 对 X 2 ⋮ ω 2 类: − w 1 x N 1 − w 2 x N 2 − ⋯ − w n x N n − w n + 1 > 0 对 X N \omega_1 \, \text{类:} \quad \begin{cases} w_1 x_{11} + w_2 x_{12} + \cdots + w_n x_{1n} + w_{n+1} > 0 & \text{对 } X_1 \\ w_1 x_{21} + w_2 x_{22} + \cdots + w_n x_{2n} + w_{n+1} > 0 & \text{对 } X_2 \\ \vdots & \\ \omega_2 \, \text{类:} \quad -w_1 x_{N1} - w_2 x_{N2} - \cdots - w_n x_{Nn} - w_{n+1} > 0 & \text{对 } X_N \end{cases} ω1类:⎩ ⎨ ⎧w1x11+w2x12+⋯+wnx1n+wn+1>0w1x21+w2x22+⋯+wnx2n+wn+1>0⋮ω2类:−w1xN1−w2xN2−⋯−wnxNn−wn+1>0对 X1对 X2对 XN
将线性不等式组表示为矩阵形式:令 N × ( n + 1 ) N \times (n+1) N×(n+1) 的长方矩阵为 X X X,则 W T X i > 0 W^T X_i > 0 WTXi>0 转化为:
X W > 0 XW > 0 XW>0
式中定义:
X = [ X 1 T X 2 T ⋮ X i T − X N − 1 T − X N T ] N × ( n + 1 ) X = \begin{bmatrix} X_1^T \\ X_2^T \\ \vdots \\ X_i^T \\ \hline -X_{N-1}^T \\ -X_N^T \end{bmatrix}_{N \times (n+1)} X= X1TX2T⋮XiT−XN−1T−XNT N×(n+1)
W = [ w 1 , w 2 , ⋯ , w n , w n + 1 ] T W = [w_1, w_2, \cdots, w_n, w_{n+1}]^T W=[w1,w2,⋯,wn,wn+1]T
感知器算法通过求解不等式组 X W > 0 XW > 0 XW>0 来确定权向量 W W W。
其中:
- X 1 , X 2 , ⋯ , X i ∈ ω 1 X_1, X_2, \cdots, X_i \in \omega_1 X1,X2,⋯,Xi∈ω1 表示第一类样本,
- X N − 1 , X N ∈ ω 2 X_{N-1}, X_N \in \omega_2 XN−1,XN∈ω2 表示第二类样本取负后包含在矩阵中,
- 0 0 0 为零向量。
LMSE算法把对满足 X W > 0 XW > 0 XW>0 的求解,改为满足的求解。式中:
X W = B XW = B XW=B
B = [ b 1 , b 2 , ⋯ , b i , ⋯ , b N ] T B = [b_1, b_2, \cdots, b_i, \cdots, b_N]^T B=[b1,b2,⋯,bi,⋯,bN]T
为各分量均为正值的矢量。
说明:
- 在方程组中当行数 > > >> >> 列数时,通常无解,称为矛盾方程组,一般求近似解。在模式识别中,通常训练样本数 N N N 总是大于模式的维数 n n n,因此方程的个数(行数) > > >> >> 模式向量的维数(列数),是矛盾方程组,只能求近似解 W ∗ W^* W∗,即
∥ X W ∗ − B ∥ = 极小 \| XW^* - B \| = 极小 ∥XW∗−B∥=极小
- LMSE算法的出发点:选择一个准则函数,使得当达到最小值时, X W = B XW = B XW=B 可得到近似解(最小二乘近似解)。
准则函数定义为:
J ( W , X , B ) = 1 2 ∥ X W − B ∥ 2 J(W, X, B) = \frac{1}{2} \| XW - B \|^2 J(W,X,B)=21∥XW−B∥2
3. LMSE算法的思路:
- 对 X W > 0 XW > 0 XW>0 求解
转化为 - 对 X W = B XW = B XW=B 求解
转化为 - 通过求准则函数极小值找 W , B W, B W,B
2. LMSE算法的出发点:
选择一个准则函数,使得当达到最小值时, X W = B XW = B XW=B 可得到近似解(最小二乘近似解)。
准则函数定义为:
J ( W , X , B ) = 1 2 ∥ X W − B ∥ 2 J(W, X, B) = \frac{1}{2} \| XW - B \|^2 J(W,X,B)=21∥XW−B∥2
3. LMSE算法的思路:
- 对 X W > 0 XW > 0 XW>0 求解
转化为 - 对 X W = B XW = B XW=B 求解
转化为 - 通过求准则函数极小值找 W , B W, B W,B
考察向量 X W − B XW - B XW−B 有:
∥ X W − B ∥ 2 = ( 向量各分量的平方和 ) = 向量各分量的平方和 \|XW - B\|^2 = (\text{向量各分量的平方和}) = \text{向量各分量的平方和} ∥XW−B∥2=(向量各分量的平方和)=向量各分量的平方和
即:
∥ X W − B ∥ 2 = ( W T X 1 − b 1 ) 2 + ⋯ + ( W T X N − b N ) 2 = ∑ i = 1 N ( W T X i − b i ) 2 \|XW - B\|^2 = (W^T X_1 - b_1)^2 + \cdots + (W^T X_N - b_N)^2 = \sum_{i=1}^N (W^T X_i - b_i)^2 ∥XW−B∥2=(WTX1−b1)2+⋯+(WTXN−bN)2=i=1∑N(WTXi−bi)2
准则函数
J ( W , X , B ) = 1 2 ∥ X W − B ∥ 2 = 1 2 ∑ i = 1 N ( W T X i − b i ) 2 J(W, X, B) = \frac{1}{2} \|XW - B\|^2 = \frac{1}{2} \sum_{i=1}^N \left( W^T X_i - b_i \right)^2 J(W,X,B)=21∥XW−B∥2=21i=1∑N(WTXi−bi)2
X W = B XW = B XW=B 的近似解也称 “最优近似解”:
—— 使方程组两边所有误差之和最小(即最优)的解。
可以看出:
- 当函数处到最小值,等式 X W = B XW = B XW=B 有最优解。即又将问题转化为求准则函数极小值的问题。
- 因为有两个变量 W W W 和 B B B,有更多的自由度供选择求解,故可望改善算法的收敛速率。
与问题相关的两个梯度
对 W W W 的梯度:
∂ J ∂ W = X T ( X W − B ) \frac{\partial J}{\partial W} = X^T (XW - B) ∂W∂J=XT(XW−B)
对 B B B 的梯度:
∂ J ∂ B = − 1 2 [ ( X W − B ) + X W − B ] \frac{\partial J}{\partial B} = - \frac{1}{2} [(XW - B) + XW - B] ∂B∂J=−21[(XW−B)+XW−B]
(1) 求 W W W 的递推关系
设梯度为 0,即:
∂ J ∂ W = 0 \frac{\partial J}{\partial W} = 0 ∂W∂J=0
则:
X T ( X W − B ) = 0 ⟹ X T X W = X T B X^T (XW - B) = 0 \implies X^T X W = X^T B XT(XW−B)=0⟹XTXW=XTB
因此:
W = ( X T X ) − 1 X T B = X # B W = (X^T X)^{-1} X^T B = X^\# B W=(XTX)−1XTB=X#B
其中:
- X # = ( X T X ) − 1 X T X^\# = (X^T X)^{-1} X^T X#=(XTX)−1XT 称为 X X X 的伪逆;
- X X X 为 N × ( n + 1 ) N \times (n+1) N×(n+1) 长方阵, X # X^\# X# 为 ( n + 1 ) × N (n+1) \times N (n+1)×N 长方阵。
(2) 求 B ( k + 1 ) B^{(k+1)} B(k+1) 的迭代公式
根据梯度算法公式:
W ( k + 1 ) = W ( k ) − c [ ∂ J ( W , X ) ∂ W ] W = W ( k ) W^{(k+1)} = W^{(k)} - c \left[\frac{\partial J(W, X)}{\partial W}\right]_{W=W^{(k)}} W(k+1)=W(k)−c[∂W∂J(W,X)]W=W(k)
利用梯度算法对应到 B B B 的公式:
B ( k + 1 ) = B ( k ) − c ′ [ ∂ J ∂ B ] B = B ( k ) B^{(k+1)} = B^{(k)} - c' \left[\frac{\partial J}{\partial B}\right]_{B=B^{(k)}} B(k+1)=B(k)−c′[∂B∂J]B=B(k)
代入公式 (3-46),得:
B ( k + 1 ) = B ( k ) + c ′ 2 [ ( X W ( k ) − B ( k ) ) + ∣ X W ( k ) − B ( k ) ∣ ] B^{(k+1)} = B^{(k)} + \frac{c'}{2} \left[(XW^{(k)} - B^{(k)}) + |XW^{(k)} - B^{(k)}|\right] B(k+1)=B(k)+2c′[(XW(k)−B(k))+∣XW(k)−B(k)∣]
令 c ′ 2 = c \frac{c'}{2} = c 2c′=c,定义:
X W ( k ) − B ( k ) = e ( k ) (3-49) XW^{(k)} - B^{(k)} = e^{(k)} \tag{3-49} XW(k)−B(k)=e(k)(3-49)
最终迭代公式为:
B ( k + 1 ) = B ( k ) + c [ e ( k ) + ∣ e ( k ) ∣ ] (3-50) B^{(k+1)} = B^{(k)} + c \left[e^{(k)} + |e^{(k)}|\right] \tag{3-50} B(k+1)=B(k)+c[e(k)+∣e(k)∣](3-50)
(3) 求 W ( k + 1 ) W^{(k+1)} W(k+1) 的迭代式
由 W ( k + 1 ) = X # B ( k + 1 ) W^{(k+1)} = X^\# B^{(k+1)} W(k+1)=X#B(k+1),代入公式 (3-50) 得:
W ( k + 1 ) = X # { B ( k ) + c [ e ( k ) + e ( k ) ] } W^{(k+1)} = X^\# \left\{B^{(k)} + c \left[e^{(k)} + e^{(k)}\right]\right\} W(k+1)=X#{B(k)+c[e(k)+e(k)]}
化简后:
W ( k + 1 ) = W ( k ) + c X # e ( k ) W^{(k+1)} = W^{(k)} + c X^\# e^{(k)} W(k+1)=W(k)+cX#e(k)
结合以下公式:
B ( k + 1 ) = B ( k ) + c [ e ( k ) + e ( k ) ] (3-50) B^{(k+1)} = B^{(k)} + c \left[e^{(k)} + e^{(k)}\right] \tag{3-50} B(k+1)=B(k)+c[e(k)+e(k)](3-50)
X W ( k ) − B ( k ) = e ( k ) (3-49) XW^{(k)} - B^{(k)} = e^{(k)} \tag{3-49} XW(k)−B(k)=e(k)(3-49)
最终得出 W ( k + 1 ) W^{(k+1)} W(k+1) 的迭代公式。
总结:
设初值 B ( 1 ) B(1) B(1),各分量均为正值,括号中数字代表迭代次数。
W ( 1 ) = X # B ( 1 ) W(1) = X^{\#} B(1) W(1)=X#B(1)
e ( k ) = X W ( k ) − B ( k ) e^{(k)} = XW^{(k)} - B^{(k)} e(k)=XW(k)−B(k)
W ( k + 1 ) = W ( k ) + c X # e ( k ) W^{(k+1)} = W^{(k)} + c X^{\#} e^{(k)} W(k+1)=W(k)+cX#e(k)
B ( k + 1 ) = B ( k ) + c [ e ( k ) + e ( k ) ] B^{(k+1)} = B^{(k)} + c \left[e^{(k)} + e^{(k)}\right] B(k+1)=B(k)+c[e(k)+e(k)]
W ( k + 1 ) W^{(k+1)} W(k+1)、 B ( k + 1 ) B^{(k+1)} B(k+1) 互相独立,先后次序无关。
收敛性证明:
可以证明:当模式类线性可分,且校正系数 c c c 满足 0 < c ≤ 1 0 < c \leq 1 0<c≤1 时,该算法收敛,可求得解 W W W。
理论上不能证明该算法到底需要迭代多少步才能达到收敛,通常在每次迭代计算后检查一下 X W ( k ) XW^{(k)} XW(k) 和误差向量 e ( k ) e^{(k)} e(k),从而可以判断是否已收敛。
-
如果 e ( k ) = 0 e^{(k)} = 0 e(k)=0,表明 X W ( k ) = B ( k ) > 0 XW^{(k)} = B^{(k)} > 0 XW(k)=B(k)>0,有解。
-
如果 e ( k ) > 0 e^{(k)} > 0 e(k)>0,表明 X W ( k ) > B ( k ) > 0 XW^{(k)} > B^{(k)} > 0 XW(k)>B(k)>0,隐含有解。继续迭代,可使 e ( k ) → 0 e^{(k)} \to 0 e(k)→0。
-
如果 e ( k ) < 0 e^{(k)} < 0 e(k)<0(所有分量为负数或零,但不全为零),停止迭代,无解。此时若继续迭代,数据不再发生变化。
三、支持向量机 (SVM)
1. 算法原理
支持向量机(Support Vector Machine, SVM)是一种用于分类和回归的监督学习算法,其主要目标是寻找一个超平面将不同类别的数据分开,同时最大化分类间隔(margin)。
(1) 问题描述
给定一个训练数据集:
D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x N , y N ) } D = \{(x_1, y_1), (x_2, y_2), \dots, (x_N, y_N)\} D={(x1,y1),(x2,y2),…,(xN,yN)}
其中, x i ∈ R n x_i \in \mathbb{R}^n xi∈Rn 是特征向量, y i ∈ { − 1 , + 1 } y_i \in \{-1, +1\} yi∈{−1,+1} 是类别标签。
目标是找到一个超平面:
w T x + b = 0 w^T x + b = 0 wTx+b=0
使得超平面最大化分类间隔,并满足:
y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , … , N y_i (w^T x_i + b) \geq 1, \quad i = 1, 2, \dots, N yi(wTxi+b)≥1,i=1,2,…,N
其中, w w w 是超平面的法向量, b b b 是偏置。
(2) 优化问题
最大化分类间隔等价于最小化 w w w 的范数。优化问题可表示为:
原始问题:
min w , b 1 2 ∥ w ∥ 2 \min_{w, b} \frac{1}{2} \|w\|^2 w,bmin21∥w∥2
约束条件:
y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , … , N y_i (w^T x_i + b) \geq 1, \quad i = 1, 2, \dots, N yi(wTxi+b)≥1,i=1,2,…,N
对偶问题:
通过拉格朗日乘子法,将问题转化为对偶形式:
max α ∑ i = 1 N α i − 1 2 ∑ i = 1 N ∑ j = 1 N α i α j y i y j x i T x j \max_{\alpha} \sum_{i=1}^N \alpha_i - \frac{1}{2} \sum_{i=1}^N \sum_{j=1}^N \alpha_i \alpha_j y_i y_j x_i^T x_j αmaxi=1∑Nαi−21i=1∑Nj=1∑NαiαjyiyjxiTxj
约束条件:
∑ i = 1 N α i y i = 0 , α i ≥ 0 , i = 1 , 2 , … , N \sum_{i=1}^N \alpha_i y_i = 0, \quad \alpha_i \geq 0, \quad i = 1, 2, \dots, N i=1∑Nαiyi=0,αi≥0,i=1,2,…,N
(3) 核方法(非线性分类)
若数据不可线性分离,可以通过核函数将数据映射到高维空间。常用的核函数包括:
- 线性核: K ( x i , x j ) = x i T x j K(x_i, x_j) = x_i^T x_j K(xi,xj)=xiTxj
- 多项式核: K ( x i , x j ) = ( x i T x j + c ) d K(x_i, x_j) = (x_i^T x_j + c)^d K(xi,xj)=(xiTxj+c)d
- 高斯核(RBF): K ( x i , x j ) = exp ( − ∥ x i − x j ∥ 2 2 σ 2 ) K(x_i, x_j) = \exp\left(-\frac{\|x_i - x_j\|^2}{2\sigma^2}\right) K(xi,xj)=exp(−2σ2∥xi−xj∥2)
通过核函数,优化问题中的 x i T x j x_i^T x_j xiTxj 替换为 K ( x i , x j ) K(x_i, x_j) K(xi,xj)。
示例
假设训练数据为:
D = { ( x 1 = [ 2 , 3 ] , y 1 = 1 ) , ( x 2 = [ 1 , 1 ] , y 2 = − 1 ) } D = \{(x_1 = [2, 3], y_1 = 1), (x_2 = [1, 1], y_2 = -1)\} D={(x1=[2,3],y1=1),(x2=[1,1],y2=−1)}
(1) 构造优化问题
超平面形式:
w T x + b = 0 w^T x + b = 0 wTx+b=0
优化目标:
min w , b 1 2 ∥ w ∥ 2 \min_{w, b} \frac{1}{2} \|w\|^2 w,bmin21∥w∥2
约束条件:
y 1 ( w T x 1 + b ) ≥ 1 , y 2 ( w T x 2 + b ) ≥ 1 y_1 (w^T x_1 + b) \geq 1, \quad y_2 (w^T x_2 + b) \geq 1 y1(wTx1+b)≥1,y2(wTx2+b)≥1
替换数据:
1 ⋅ ( ( w 1 ⋅ 2 + w 2 ⋅ 3 ) + b ) ≥ 1 1 \cdot ((w_1 \cdot 2 + w_2 \cdot 3) + b) \geq 1 1⋅((w1⋅2+w2⋅3)+b)≥1
− 1 ⋅ ( ( w 1 ⋅ 1 + w 2 ⋅ 1 ) + b ) ≥ 1 -1 \cdot ((w_1 \cdot 1 + w_2 \cdot 1) + b) \geq 1 −1⋅((w1⋅1+w2⋅1)+b)≥1
约束变为:
2 w 1 + 3 w 2 + b ≥ 1 2w_1 + 3w_2 + b \geq 1 2w1+3w2+b≥1
− w 1 − w 2 − b ≥ 1 -w_1 - w_2 - b \geq 1 −w1−w2−b≥1
(2) 对偶问题
通过求解对偶问题,计算拉格朗日乘子 α i \alpha_i αi,得到解:
w = [ 0.4 , 0.6 ] , b = − 1.2 w = [0.4, 0.6], \quad b = -1.2 w=[0.4,0.6],b=−1.2
(3) 分类决策
分类决策函数:
f ( x ) = sign ( w T x + b ) f(x) = \text{sign}(w^T x + b) f(x)=sign(wTx+b)
对新数据点 x = [ 3 , 4 ] x = [3, 4] x=[3,4] 进行分类:
f ( x ) = sign ( [ 0.4 , 0.6 ] T [ 3 , 4 ] − 1.2 ) f(x) = \text{sign}([0.4, 0.6]^T [3, 4] - 1.2) f(x)=sign([0.4,0.6]T[3,4]−1.2)
f ( x ) = sign ( 0.4 ⋅ 3 + 0.6 ⋅ 4 − 1.2 ) = sign ( 3.6 ) = + 1 f(x) = \text{sign}(0.4 \cdot 3 + 0.6 \cdot 4 - 1.2) = \text{sign}(3.6) = +1 f(x)=sign(0.4⋅3+0.6⋅4−1.2)=sign(3.6)=+1
因此, x = [ 3 , 4 ] x = [3, 4] x=[3,4] 的分类结果为正类。