此公式出现在线性可分支持向量机基于拉格朗日函数L(w,b,α)对w求导的公式中。为什么 1 2 ∥ w ∥ 2 \frac{1}{2} \|\mathbf{w}\|^2 21∥w∥2 对 w \mathbf{w} w 的偏导数是 w \mathbf{w} w。这个问题涉及到向量的微分运算。
1. 复习:向量的范数
我们首先来看 ∥ w ∥ 2 \|\mathbf{w}\|^2 ∥w∥2,它是法向量 w \mathbf{w} w 的二次范数,表示为:
∥ w ∥ 2 = w T w \|\mathbf{w}\|^2 = \mathbf{w}^T \mathbf{w} ∥w∥2=wTw
其中 w T w \mathbf{w}^T \mathbf{w} wTw 是向量 w \mathbf{w} w 的点积,结果是一个标量。
2. 求 1 2 ∥ w ∥ 2 \frac{1}{2} \|\mathbf{w}\|^2 21∥w∥2 的偏导数
我们现在要对 1 2 ∥ w ∥ 2 \frac{1}{2} \|\mathbf{w}\|^2 21∥w∥2 求关于 w \mathbf{w} w 的偏导数。
首先,考虑 ∥ w ∥ 2 = w T w \|\mathbf{w}\|^2 = \mathbf{w}^T \mathbf{w} ∥w∥2=wTw,其对 w \mathbf{w} w 的偏导数可以用矩阵微分的规则来求解。根据矩阵微分公式:
∂ ∂ w ( w T w ) = 2 w \frac{\partial}{\partial \mathbf{w}} \left( \mathbf{w}^T \mathbf{w} \right) = 2 \mathbf{w} ∂w∂(wTw)=2w
这是一个常用的矩阵微分公式,背后的原因是, w T w \mathbf{w}^T \mathbf{w} wTw 展开后是 w 1 2 + w 2 2 + ⋯ + w n 2 w_1^2 + w_2^2 + \cdots + w_n^2 w12+w22+⋯+wn2,对每个 w i w_i wi 求导都会得到 2 w i 2 w_i 2wi,于是整体对 w \mathbf{w} w 求导的结果是 2 w 2 \mathbf{w} 2w。
3. 考虑系数 1 2 \frac{1}{2} 21
由于我们在这里要对 1 2 ∥ w ∥ 2 \frac{1}{2} \|\mathbf{w}\|^2 21∥w∥2 进行求导,因此我们可以将求导结果除以 2:
∂ ∂ w ( 1 2 w T w ) = w \frac{\partial}{\partial \mathbf{w}} \left( \frac{1}{2} \mathbf{w}^T \mathbf{w} \right) = \mathbf{w} ∂w∂(21wTw)=w
4. 公式总结
因此, 1 2 ∥ w ∥ 2 \frac{1}{2} \|\mathbf{w}\|^2 21∥w∥2 对 w \mathbf{w} w 的偏导数为 w \mathbf{w} w。这就是为什么在公式 9-18 中, ∂ L ∂ w \frac{\partial L}{\partial \mathbf{w}} ∂w∂L 的第一部分是 w \mathbf{w} w。
总结
- ∥ w ∥ 2 \|\mathbf{w}\|^2 ∥w∥2 是向量 w \mathbf{w} w 的二次范数,对 w \mathbf{w} w 求偏导数的结果是 2 w 2 \mathbf{w} 2w。
- 在拉格朗日函数中,前面有系数 1 2 \frac{1}{2} 21,因此最后的结果是 w \mathbf{w} w。