线性可分支持向量机的原理推导 标准优化目标 公式解析

devtools/2024/10/19 4:44:26/

本文是将文章《线性可分支持向量机的原理推导》中的公式单独拿出来做一个详细的解析,便于初学者更好的理解。


公式 9-6 是从之前的最大化间隔问题(公式 9-4 和 9-5)推导出来的支持向量机(SVM)的优化问题。它表示的是一个标准的优化目标,其中我们希望最小化超平面法向量 w \mathbf{w} w 的大小,同时满足一定的分类约束。

公式 9-6 的形式如下:
min ⁡ w , b 1 2 ∥ w ∥ 2 \min_{\mathbf{w}, b} \quad \frac{1}{2} \|\mathbf{w}\|^2 w,bmin21w2

subject to y i ( w T x i + b ) ≥ 1 , i = 1 , 2 , … , N \text{subject to} \quad y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1, \quad i = 1, 2, \ldots, N subject toyi(wTxi+b)1,i=1,2,,N

1. 公式 9-6 的含义

优化目标:最小化 1 2 ∥ w ∥ 2 \frac{1}{2} \|\mathbf{w}\|^2 21w2
  • 1 2 ∥ w ∥ 2 \frac{1}{2} \|\mathbf{w}\|^2 21w2支持向量机优化中的目标函数,它表示的是超平面法向量 w \mathbf{w} w 的范数平方的一半。我们希望通过最小化这个函数来最大化分类间隔

    • 最大化分类间隔的意义:在支持向量机中,超平面法向量 w \mathbf{w} w 的大小 ∥ w ∥ \|\mathbf{w}\| w 与分类间隔成反比。也就是说,法向量越大,分类间隔就越小,反之,法向量越小,分类间隔越大。因此,最小化 ∥ w ∥ \|\mathbf{w}\| w 是为了最大化间隔,这也是支持向量机的核心目标之一。

    • 为什么使用 1 2 ∥ w ∥ 2 \frac{1}{2} \|\mathbf{w}\|^2 21w2 而不是直接使用 ∥ w ∥ \|\mathbf{w}\| w?这里平方的一半是为了方便后续使用梯度下降等优化算法进行求解。平方函数的导数是线性的,方便进行优化步骤。此外,平方不会影响优化目标,因为最小化 ∥ w ∥ \|\mathbf{w}\| w 和最小化 ∥ w ∥ 2 \|\mathbf{w}\|^2 w2 是等价的。

约束条件: y i ( w T x i + b ) ≥ 1 y_i (\mathbf{w}^T \mathbf{x}_i + b) \geq 1 yi(wTxi+b)1
  • 这个约束条件确保了样本点被正确分类,同时每个样本点到超平面的几何距离至少为 1。

    • 分类函数 w T x i + b \mathbf{w}^T \mathbf{x}_i + b wTxi+b 是超平面方程,表示样本 x i \mathbf{x}_i xi 相对于超平面的分类结果。
    • y i y_i yi:是真实的类别标签,取值为 + 1 +1 +1 − 1 -1 1。当 y i = 1 y_i = 1 yi=1 时,约束条件变为 w T x i + b ≥ 1 \mathbf{w}^T \mathbf{x}_i + b \geq 1 wTxi+b1,表示正类样本点应位于超平面的一侧,且离超平面的距离至少为 1;当 y i = − 1 y_i = -1 yi=1 时,约束条件变为 w T x i + b ≤ − 1 \mathbf{w}^T \mathbf{x}_i + b \leq -1 wTxi+b1,表示负类样本点应位于超平面的另一侧,且离超平面的距离至少为 1。
    • 这个约束确保了所有样本点被正确分类并且它们与超平面的距离不小于 1。

2. 公式 9-6 的推导背景

从公式 9-4 和 9-5 开始,我们的目标是最大化几何间隔 d d d,同时确保所有样本点满足分类约束条件。为了简化这个问题,在公式 9-5 中我们令 d = 1 d = 1 d=1,将最大化几何间隔的问题转化为最小化法向量 w \mathbf{w} w 的大小。

具体来说,最大化分类间隔等价于最小化 ∥ w ∥ \|\mathbf{w}\| w,这也就转化为了公式 9-6 中的优化目标。

3. 公式 9-6 的几何解释

支持向量机的几何直观解释是:我们试图找到一个可以最大化分类间隔的超平面,使得最靠近超平面的样本点(即支持向量)与超平面的距离最大。在几何上,间隔与法向量 w \mathbf{w} w 的大小成反比,因此最小化 ∥ w ∥ \|\mathbf{w}\| w 是为了让分类器的决策边界尽可能地远离所有样本点。

4. 约束优化问题

公式 9-6 是一个约束优化问题,目标是在满足分类约束的前提下最小化目标函数。求解这个问题的常见方法是使用拉格朗日乘子法,将约束条件引入到优化目标中,形成一个无约束的优化问题,这将会在后续通过对偶问题的形式进一步讨论。

5. 公式 9-6 的意义

公式 9-6 是支持向量机优化问题的标准形式,它将分类间隔最大化问题转化为一个凸二次规划问题,并且该问题有全局最优解。这个问题的目标函数是二次的,约束条件是线性的,因此称为凸二次规划问题

总结

  • 优化目标:最小化 1 2 ∥ w ∥ 2 \frac{1}{2} \|\mathbf{w}\|^2 21w2,即最小化法向量的大小,从而最大化分类间隔。
  • 约束条件:确保所有样本点被正确分类,并且离超平面的几何距离至少为 1。

公式 9-6 是支持向量机的基本优化问题,它为我们提供了找到最优超平面的数学框架。通过最小化法向量 w \mathbf{w} w 的大小,我们确保了分类的稳定性和鲁棒性。


http://www.ppmy.cn/devtools/126920.html

相关文章

利用 HandBrake 压制视频

HandBrake 简介 这是一款全桌面平台的开源免费软件,在 Windows、macOS、Linux 下均有对应的应用程序界面。 HandBrake 基于鼎鼎大名的 FFmpeg 多媒体框架。FFmpeg 本身是命令行程序,可以这么理解:HandBrake 是为方便调用 FFmpeg 而开发的用…

组合式API有什么好处

什么是组合式API? 组合式 API (Composition API) 是一系列 API (响应式API、生命周期钩子、依赖注入)的集合。它不是函数式编程,组合式 API 是以 Vue 中数据可变的、细粒度的响应性系统为基础的,而函数式编程通常强调…

网络通信与并发编程(三)粘包现象解决方案、socketserver实现并发

粘包现象解决方案、socketserver实现并发 文章目录 粘包现象解决方案、socketserver实现并发一、粘包现象解决方案1.发送数据大小2.发送数据信息 二、socketserver实现并发1.tcp版的socketserver并发2.udp版的socketserver并发 一、粘包现象解决方案 1.发送数据大小 有了上一…

FLINK SQL UDF

在Flink SQL中,UDF(User-Defined Function,用户自定义函数)是一种扩展Flink SQL处理能力的机制。通过UDF,用户可以编写自定义的Java或Scala代码,以处理Flink SQL无法直接支持的数据处理逻辑。Flink SQL支持…

wiki搭建

搭建一个维基(Wiki)站点可以通过多种平台和工具来实现,常见的有 MediaWiki、DokuWiki 和 TikiWiki 等。下面以 MediaWiki 为例,详细介绍如何在 Linux 环境下搭建和配置一个典型的 Wiki 系统: 系统要求 确保你的服务器…

Mycat引领MySQL分布式部署新纪元:性能与扩展性的双重飞跃

作者简介:我是团团儿,是一名专注于云计算领域的专业创作者,感谢大家的关注 座右铭: 云端筑梦,数据为翼,探索无限可能,引领云计算新纪元 个人主页:团儿.-CSDN博客 目录 前言&#…

esp32 开发需要那些开发语言

ESP32 开发支持多种编程语言和开发框架,Python 也可以用于开发,特别是通过 MicroPython。以下是一些主流的开发语言和框架供你选择: 1. C/C ESP-IDF(Espressif IoT Development Framework):这是由 Espres…

openSSL生成WEB SSL证书

1.使用openSSL生成凭证与私钥: openssl genrsa -out privatekey.pem 2048 openssl req -new -key privatekey.pem -out cert_req.pemCountry Name (2 letter code) [AU]:cn State or Province Name (full name) [Some-State]:sh Locality Name (eg, city) []:sh Or…