SVM支持向量机

devtools/2025/1/15 0:40:46/

目录

算法原理

数学基础

向量内积(向量点乘)

范数

对偶问题

拉格朗日乘子法

​线性可分与线性不可分

线性可分

线性不可分

超平面

超平面的定义

超平面的作用

如何寻找最优的超平面

损失函数求解

软间隔

鲁棒性

核函数

算法优缺点

优点

缺点

算法API


算法原理

数学基础
向量内积(向量点乘)

两个向量的内积表示一个向量在另一个向量上的投影长度乘以另一个向量的长度。

在线性分类中,内积用于计算样本点到超平面的距离。

更详细的向量内积外积内容向量的内积外积与其几何意义_内积和外积-CSDN博客

范数

范数用于衡量向量的长度或大小。常见的范数有 L1 范数(曼哈顿距离)和 L2 范数(欧几里得距离)。在SVM中,通常使用L2范数来计算间隔。

对偶问题

对于一个原始的优化问题,通过一定的数学变换可以得到另一个相关的优化问题,这个新的优化问题就称为原问题的对偶问题。

对偶问题具有一些良好的性质,比如在某些情况下,求解对偶问题可能比求解原问题更容易,或者通过研究对偶问题可以获得关于原问题的一些有用信息,比如最优解的下界等。

拉格朗日乘子法

用于将有约束的优化问题转化为无约束的优化问题。在 SVM 中,通过引入拉格朗日乘子,将最大化间隔的问题转化为对偶问题进行求解。

线性可分与线性不可分
线性可分

在线性可分的情况下,数据可以通过一个超平面完全分开,使得属于不同类别的样本分别位于超平面的两侧

线性不可分

在线性不可分的情况中,无法找到一个线性超平面将数据完美分开,此时需要引入核函数将数据映射到高维空间,使其在高维空间中变得线性可分。

超平面
超平面的定义

超平面是一个在特征空间中具有特定方程的平面。

对于二维数据,超平面是一条直线;

对于三维数据,超平面是一个平面;

对于更高维度的数据,超平面是一个广义的线性决策边界。

超平面的方程通常表示如下,

其中ω是法向量,决定超平面的方向,b是截距,它决定了超平面与原点的相对位置。具体来说,

当b>0时,超平面向原点的负方向平移;

当b<0时,超平面向原点的正方向平移;

当b=0时,超平面经过原点。

所以, ω与b共同作用,确定了超平面在特征空间中的具体位置和方向。

超平面的作用
  1. 作为分类决策边界,区分不同类别的数据。

  2. 支持向量机中,找到具有最大间隔的超平面,提升模型的泛化和鲁棒性。

  3. 用于数据降维与特征提取。

  4. 作为数学模型中的线性约束条件。

  5. 反映数据分布特征和内在结构。

如何寻找最优的超平面

损失函数求解
软间隔

支持向量机中,“软间隔”(Soft Margin)是对标准硬间隔(Hard Margin)SVM 的一种扩展和改进。

在硬间隔 SVM 中,要求所有的样本点都被正确分类,并且离超平面有一定的间隔。但在实际应用中,数据往往不是完全线性可分的,或者要求严格的硬间隔可能导致过拟合。

软间隔 SVM 允许一些样本点违反间隔约束,即可以位于间隔之内,甚至被错误分类,但会对这些违反约束的样本点引入一定的惩罚。

其中C是一个正的惩罚参数,控制对错误分类和违反间隔的容忍程度。

较大的C值表示对错误分类和违反间隔的惩罚较大,模型更倾向于严格分类;

较小的C值则对错误的容忍度更高,模型更注重整体的泛化能力。

通过软间隔 SVM,可以更好地处理噪声数据和不完全线性可分的情况,提高模型的鲁棒性和泛化能力。

鲁棒性

“鲁棒性”(Robustness)在机器学习和数据处理中,指的是一个系统或模型在面对各种干扰、不确定性、噪声或异常情况时,仍能保持其性能和功能稳定的能力。

可以理解为如果一个模型具有良好的鲁棒性,那么当输入数据有一定程度的变化、误差或异常时,模型的输出结果不会产生过大的偏差或错误,依然能够给出合理和可靠的预测或决策。

例如,对于一个图像识别模型,如果图像有轻微的模糊、光照变化或部分遮挡,具有鲁棒性的模型仍能准确识别出图像中的对象;对于一个预测模型,如果输入数据存在少量的噪声或异常值,鲁棒的模型不会因此产生显著的预测误差。

鲁棒性是评估模型质量和可靠性的一个重要指标,特别是在实际应用中,数据往往不完美,存在各种可能的干扰和变化。

核函数

多项式核函数

高斯核函数

算法优缺点
优点

1.有严格的数学理论支持,可解释性强,不同于传统的统计方法能简化我们遇到的问题。

2.能找出对任务有关键影响的样本,即支持向量。 3.软间隔可以有效松弛目标函数。 4.核函数可以有效解决非线性问题。 5.最终决策函数只由少数的支持向量所确定,计算的复杂性取决于支持向量的数目,而不是样本空间的维数,这在某种意义上避免了“维数灾难”。 6.SVM在小样本训练集上能够得到比其它算法好很多的结果。

缺点

1.对大规模训练样本难以实施。

SVM的空间消耗主要是存储训练样本和核矩阵,当样本数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。超过十万及以上不建议使用SVM。

2.对参数和核函数选择敏感。 支持向量机性能的优劣主要取决于核函数的选取,所以对于一个实际问题而言,如何根据实际的数据模型选择合适的核函数从而构造SVM算法目前没有好的解决方法解决核函数的选择问题。 3.模型预测时,预测时间与支持向量的个数成正比。当支持向量的数量较大时,预测计算复杂度较高。

算法API

class sklearn.svm.SVC(C=1.0, kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=’ovr’, random_state=None)

参数说明:(重要的参数有:C、kernel、degree、gamma)

1.C 惩罚因子【浮点数,默认为1.】【软间隔】

建议通过交叉验证来选择

  • C越大,对误分类的惩罚增大,希望松弛变量接近0,趋向于对训练集全分对的情况,这样对训练集测试时准确率很高,但泛化能力弱;

  • C值小,对误分类的惩罚减小,允许容错,将他们当成噪声点,泛化能力较强。

2.kernel 核函数【默认rbf(径向基核函数|高斯核函数)】

默认情况下选择rbf

3.degree【整型,默认3维】

多项式poly函数的维度,默认是3,选择其他核函数时会被忽略。按默认【选择rbf之后,此参数不起作用】

指上面式子中的n

4.‘rbf’,‘poly’ 和‘sigmoid’的核函数参数。默认是’auto’。建议通过交叉验证来选择

  • 如果gamma是’auto’,那么实际系数是1 / n_features,也就是数据如果有10个特征,那么gamma值维0.1。(sklearn0.21版本)

  • 在sklearn0.22版本中,默认为’scale’,此时gamma=1 / (n_features*X.var())#X.var()数据集所有值的方差。

    • gamma越大,过拟合风险越高

    • gamma越小,过拟合风险越低

5.coef0:核函数中的独立项。多项式的偏置项。它只在’poly’和’sigmoid’中很重要。

6.probability:是否启用概率估计。

允许在模型训练完成后,使用predict_proba方法来预测每个类别的概率,而不是仅仅给出类别的预测结果。

必须在调用fit之前启用它,并且会减慢该方法的速度。

默认为False,按默认即可【选择rbf之后,不起作用】

7.cache_size :核函数cache缓存大小,默认为200MB

不用调整

8.class_weight :类别的权重,字典形式传递。默认’balanced’

按默认设置

一些属性信息:

  1. support_vectors_【支持向量】

->>以数组的形式储存

  1. n_support_【每个类别支持向量的个数】

->>int类型

  1. coef_【参数w】

->>数组的形式储存

  1. intercept_【偏置项参数b】

->>数组的形式储存


http://www.ppmy.cn/devtools/150533.html

相关文章

系统看门狗配置--以ubuntu为例

linux系统配置看门狗 以 ubuntu 系统配置看门狗为例 配置看门狗使用的脚本文件&#xff0c;需要使用管理员权限来执行&#xff1a; 配置是&#xff1a;系统每 30S 喂一次狗&#xff0c;超过 60S 不进行投喂&#xff0c;就会自动重启。 1. 系统脚本内容&#xff1a; #!/bin/b…

Python的循环

Python的循环 Python的循环有两种&#xff0c;分别是for…in循环和while循环。 for…in 循环 假设我们要循环输出一个列表里的元素&#xff1a; names [张三,李四,王五] for name in names:print(name)执行这段代码后&#xff0c;会依次打印names的每一个元素&#xff1a;…

41_Lua函数

在Lua中,函数是对语句和表达式进行抽象的主要方法。既可以用来处理一些特殊的工作,也可以用来计算一些值。Lua函数主要有两种用途: 完成指定的任务,这种情况下函数作为调用语句使用。计算并返回值,这种情况下函数作为赋值语句的表达式使用。此外,Lua还提供了许多的内建函…

Python实现windows自动关机

python <shut.py> import ntplib from datetime import datetime, timezoneimport time import osimport easygui# net time def get_network_time():time.sleep(3)"""从网络时间服务器获取时间"""client ntplib.NTPClient()response c…

数据结构(霍夫曼树)

1. Huffman编码 1.1 问题起源 假设在数据通信中&#xff0c;有一字串"ABABBCBBA"需要传送&#xff0c;一般会将这些字符进行编码&#xff0c;然后按编码后的二进制位进行传输&#xff0c;例如这些字母的ASCII码取值为&#xff1a; A(65): 0100 0001 B(66): 0100 00…

Linux离线部署ELK

文章目录 前期准备开始安装安装elastic search安装logstash安装kibana 配置ELK配置ElasticSearch配置logstash配置kibana 启动ELK启动命令启动测试 设置ELK策略创建ILM策略将ILM策略与日志index关联查看索引是否被ILM策略管理 前期准备 ELK包含三部分软件 ElasticSearch用作搜…

如何知道深度学习模型中,每个模块的功能是什么

在深度学习模型中&#xff0c;研究人员可以通过以下几种主要方式来理解每个模块的功能&#xff1a; 可视化技术 特征图可视化&#xff1a;对于卷积神经网络&#xff08;CNN&#xff09;&#xff0c;可以查看中间层的特征图。例如&#xff0c;在图像分类任务中&#xff0c;通过可…

出现 No more pattern data allowed after {*...} or ** pattern element 解决方法

目录 前言1. 问题所示2. 解决方法3. 彩蛋前言 🤟 找工作,来万码优才:👉 #小程序://万码优才/r6rqmzDaXpYkJZF 1. 问题所示 执行代码的时候,出现如下 org.springframework.web.util.pattern.PatternParseException: No more pattern data allowed after {*