【自学笔记】支持向量机（4）—

【自学笔记】支持向量机（4）——支持向量回归SVR

news/2024/11/17 19:44:37/

引入

SVM解决了分类问题，而用类似方法解决回归问题的模型称为支持向量回归。目标是得到一个模型，使输出的 $f(\vec{x})$ 与 $y$ 尽可能接近。

传统的回归模型直接计算 $f(\vec{x})$ 与 $y$ 的差距作为损失，当两者完全相等时损失为0；而SVR加入了支持向量，使得模型能够容忍 $\varepsilon$ 的偏差，即在距离 $f (x)$ 不超过 $\varepsilon$ 的样本被认为预测正确，损失为0。

建立数学模型

根据上述，类似SVM，我们可以写出SVR的损失函数和问题转化：

$min_{\vec{w}, b}\ \frac{1}{2}||\vec{w}||^{2}+C\sum_{i=1}^{m}\ell _{\varepsilon}(f(\vec{x}_{i})-y_{i})$
其中 $\ell _{\varepsilon}(z)=\begin{cases}0,\ if \ |z| \ge \varepsilon; \\|z|-\varepsilon, \ otherwise.\end{cases}$ 称为 $\varepsilon-$ 不敏感损失函数（ $\varepsilon$ -insensitive loss）

接下来就是经典的拉格朗日法处理二次规划问题。引入松弛变量 $\xi_{i}$ 和 $\hat{\xi}_{i}$ ：

$min_{\vec{w}, b}\ \frac{1}{2}||\vec{w}||^{2}+C\sum_{i=1}^{m}(\xi_{i}+\hat{\xi}_{i})$
$s.t.\ \begin{cases}f(\vec{x}_{i})-y_{i} \le \varepsilon+\xi_{i}; \\ y_{i}-f(\vec{x}_{i}) \le \varepsilon+\xi_{i};\\\xi_{i} \ge 0, \hat{\xi}_{i} \ge 0,\ \ i=1,2,..., m.\end{cases}$

这里使用双松弛变量，可以更好地处理边界误差，因为误差不一定是对称的。
接下来引入拉格朗日乘子得到拉格朗日函数：

$\mu_{i} \ge 0,\hat{\mu}_{i} \ge 0,\alpha_{i} \ge 0, \hat{\alpha}_{i} \ge 0$
$L(\vec{w},b,\alpha,\hat{\alpha},\xi,\hat{\xi},\mu,\hat{\mu})$
$=\frac{1}{2}||\vec{w}||^{2}+C\sum_{i=1}^{m}(\xi_{i}+\hat{\xi}_{i})-\sum_{i=1}^{m}\mu_{i}\xi_{i}-\sum_{i=1}^{m}\hat{\mu}_{i}\hat{\xi}_{i}$
$+\sum_{i=1}^{m}\alpha_{i}(f(\vec{x}_{i})-y_{i}-\varepsilon-\xi_{i})+\sum_{i=1}^{m}\alpha_{i}(y_{i}-f(\vec{x}_{i})-\varepsilon-\hat{\xi}_{i})$

令 $L$ 对 $\vec{w},b,\xi_{i},\hat{\xi}_{i}$ 偏导为0得：

$\vec{w}=\sum_{i=1}^{m}(\hat{\alpha}_{i}-\alpha_{i})\vec{x}_{i}$
$0=\sum_{i=1}^{m}(\hat{\alpha}_{i}-\alpha_{i})$
$C=\alpha_{i}+\mu_{i}=\hat{\alpha}_{i}+\hat{\mu}_{i}$

代回得到对偶问题：

$max_{\alpha, \hat{\alpha}}\sum_{i=1}^{m}y_{i}(\hat{\alpha}_{i}-\alpha_{i})-\varepsilon(\hat{\alpha}_{i}+\alpha_{i})$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ -\frac{1}{2}\sum_{i=1}{m}\sum_{j=1}^{m}(\hat{\alpha}_{i}-\alpha_{i})(\hat{\alpha}_{j}-\alpha_{j})\vec{x}_{i}^{T}\vec{x}_{j}$
$\sum_{i=1}^{m}(\hat{\alpha}_{i}-\alpha_{i})=0,$
$\ \ \ \ \ \ 0 \le \alpha_{i}, \hat{\alpha}_{i} \le C.$

KKT条件：
$\begin{cases} \alpha_{i}(f(\vec{x}_{i})-y_{i}-\varepsilon -\xi_{i})=0, \\\hat{\alpha} _{i}(y_{i}-f(\vec{x}_{i})-\varepsilon -\hat{\xi} _{i})=0, \\\alpha_{i}\hat{\alpha}_{i}=0, \\\xi_{i}\hat{\xi}_{i}=0, \\(C-\alpha_{i})\xi_{i}=0, \\(C-\hat{\alpha} _{i})\hat{\xi} _{i}=0. \end{cases}$

有 $\alpha_{i}$ 与 $f(\vec{x}_{i})-y_{i}-\varepsilon -\xi_{i}$ 不能同时非零； $\hat{\alpha} _{i}$ 和 $y_{i}-f(\vec{x}_{i})-\varepsilon -\hat{\xi} _{i}$ 不能同时非零。

而 $f(\vec{x}_{i})-y_{i}-\varepsilon -\xi_{i}$ 与 $y_{i}-f(\vec{x}_{i})-\varepsilon -\hat{\xi} _{i}$ 不可能同时为0（支持向量的意义）。所以 $\alpha_{i}$ 和 $\hat{\alpha}_{i}$ 至少有一个为 $0$ 。