机器学习(三)之监督学习2

server/2024/10/18 14:18:34/

前言:

本专栏一直在更新机器学习的内容,欢迎点赞收藏哦!

笔者水平有限,文中掺杂着自己的理解和感悟,如果有错误之处还请指出,可以在评论区一起探讨!

 1.支持向量机(Support Vector Machines,简称SVM)

1.1 前言

概念:

支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机

引入:

上一篇讲KRR时,我们也提到了一点SVM。在这一节中我们详细的说明一下这种方法。

优势:

  1. 对高维空间有效
  2. 当维度比样本数量大时还有效
  3. 使用训练集的子集,空间内存使用较少
  4. 具有通用性,可以指定不同的核函数

缺点:

  1. 如果维度比样本数量大很多时,注意避免过拟合。可以选择合适的核函数和正则化项(惩罚项)
  2. 不直接提供概率估计

1.2 分类

主要是三种分类算法:SVC(C-Support Vector Classification),NuSVC(Nu-Support Vector Classification)和LinearSVC(Linear Support Vector Classification)。我们就简单的来看一下,区别和使用方法。

区别:

SVC和NuSVC方法基本一致,唯一区别就是损失函数的度量方式不同。

 • NuSVC中的nu参数(训练误差部分的上限和⽀持向量部分的下限,取值在(0,1)之间,默认是0.5)和SVC中的C参数(c越等于0,惩罚越大,准确率高,但容易过拟合);

 • LinearSVC是实现线性核函数的支持向量分类,没有kernel参数。

SVC代码:

import numpy as np
from sklearn.svm import SVC
from sklearn.pipeline import make_pipeline
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScalerx = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
y = np.array([1, 1, 2, 2])
clf = make_pipeline(StandardScaler(), SVC(gamma='auto'))
clf.fit(x, y)
x_test = np.array([[-0.8, -1]])y_test = clf.predict(x_test)
x_line = np.linspace(-2, 2, 100)# 绘制训练集数据点
plt.scatter(x[:, 0], x[:, 1], c=y, cmap=plt.cm.Paired, label='Training Points')# 绘制决策边界
x_min, x_max = x[:, 0].min() - 1, x[:, 0].max() + 1
y_min, y_max = x[:, 1].min() - 1, x[:, 1].max() + 1
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 100), np.linspace(y_min, y_max, 100))  # 生成了一个二维的网格点坐标矩阵
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])  # 预测坐标范围内每个点的类别
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, cmap=plt.cm.Paired, alpha=0.8)  # cmap=plt.cm.Paired 指定了等高线的颜色映射# 绘制测试点
plt.scatter(x_test[:, 0], x_test[:, 1], c='red', marker='x', label='Test Point')plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('SVM Classification')
plt.legend()
plt.show()

 NuSVC代码:

import numpy as np
from sklearn.svm import SVC,NuSVC
from sklearn.pipeline import make_pipeline
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScalerx = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
y = np.array([1, 1, 2, 2])
clf = make_pipeline(StandardScaler(), NuSVC())
clf.fit(x, y)
x_test = np.array([[-0.8, -1]])y_test = clf.predict(x_test)
x_line = np.linspace(-2, 2, 100)# 绘制训练集数据点
plt.scatter(x[:, 0], x[:, 1], c=y, cmap=plt.cm.Paired, label='Training Points')# 绘制决策边界
x_min, x_max = x[:, 0].min() - 1, x[:, 0].max() + 1
y_min, y_max = x[:, 1].min() - 1, x[:, 1].max() + 1
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 100), np.linspace(y_min, y_max, 100))  # 生成了一个二维的网格点坐标矩阵
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])  # 预测坐标范围内每个点的类别
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, cmap=plt.cm.Paired, alpha=0.8)  # cmap=plt.cm.Paired 指定了等高线的颜色映射# 绘制测试点
plt.scatter(x_test[:, 0], x_test[:, 1], c='red', marker='x', label='Test Point')plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('NuSVC Classification')
plt.legend()
plt.show()

 LinearSVC代码:

import numpy as np
from sklearn.svm import LinearSVC
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_classification
import matplotlib.pyplot as pltX, y = make_classification(n_features=4, random_state=0)  #随机生成样本
clf = make_pipeline(StandardScaler(),LinearSVC(dual="auto", random_state=0, tol=1e-5))clf.fit(X,y)
coef=clf.named_steps['linearsvc'].coef_
intercept=clf.named_steps['linearsvc'].intercept_
x_test=np.array([[0,0,0,0]])
y_test=clf.predict(x_test)
from sklearn.decomposition import PCA# 将数据投影到二维平面
pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)# 训练 LinearSVC
clf.fit(X_pca, y)
# 投影测试点到二维空间
x_test_pca = pca.transform(x_test)# 绘制样本点
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap=plt.cm.Paired)# 绘制决策边界# 绘制测试点
plt.scatter(x_test_pca[:, 0], x_test_pca[:, 1], c='red', marker='x', label='Test Point')
# 获取系数和截距
coef = clf.named_steps['linearsvc'].coef_
intercept = clf.named_steps['linearsvc'].intercept_# 绘制样本点
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap=plt.cm.Paired)# 绘制决策边界
x_min, x_max = X_pca[:, 0].min() - 1, X_pca[:, 0].max() + 1
y_min, y_max = X_pca[:, 1].min() - 1, X_pca[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.02),np.arange(y_min, y_max, 0.02))
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, cmap=plt.cm.Paired, alpha=0.8)plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')
plt.title('Linear SVM Decision Boundary (PCA)')
plt.show()

 这一部分不好画在二维图片上,我们使用了PCA降维技术,降维到平面上再显现在二维平面上的。相当于降维之后又训练了一遍,才能画出来的。

总结:

  • 数据线性可分,或者需要一个训练速度更快的模型,那么可以选择LinearSVC
  • 处理非线性问题,可以尝试使用SVC,并尝试不同的核函数
  • 想要一个介于SVC和LinearSVC之间的模型,你可以尝试使用NuSVC

1.3 回归

分为:SVR,NuSVR,LinearSVR。

方法和上面差不多,我们就不多讲了。

1.4 复杂度

之间

1.5 使用提示

  1. 避免数据拷贝:SVCSVRNuSVCNuSVR如果不按照特定方法输入,数据就会被拷贝一份。LinearSVCLogisticRegression任何numpy数组输入都会被拷贝。如果是大规模线性分类器且不想拷贝数据,可以使用SGDC.
  2. 核缓存大小:对SVCSVRNuSVCNuSVR,核缓存的大小对较大问题求解的运行时间有非常强的影响,如果你有足够内存,建议将cache_size设置为一个高于默认值200(MB)的值,比如500(MB)或1000(MB)。
  3. 设置C:默认情况下C设为1,这是一个合理的选择。如果样本中有许多噪音观察点,则应该减小这个值。这意味着对估计结果进行更严格的正则化。
  4. SVM算法会受数据取值范围的影响,所以强烈建议在使用之前对数据进行缩放

 1.6 核方法

 2.随机梯度下降算法(Stochastic Gradient Descent)

2.1 前言

优点:

  • 高效
  • 易于实现

缺点:

  • 需要调参
  • 对特征缩放非常敏感

警告:

在拟合数据之前一定要打乱训练数据(shuffle=True)并进行标准化(make_pipeline(StandardScaler(), SGDClassifier())) 

梯度下降和随机梯度下降的区别:

梯度下降(Gradient Descent):

  • 在梯度下降中,每次迭代都使用全部训练数据来计算损失函数的梯度,并更新模型参数。
  • 因为每次迭代都需要对整个数据集进行操作,所以在大数据集上训练时,梯度下降的计算开销会很大。
  • 梯度下降通常用于批量学习(Batch Learning)的情况下,其中数据集可以完全载入内存。

 随机梯度下降(Stochastic Gradient Descent,SGD):

  • 在随机梯度下降中,每次迭代只使用一个样本(或一小批样本)来计算损失函数的梯度,并更新模型参数。
  • 因为每次迭代只需要处理一个样本(或一小批样本),所以SGD的计算开销较小,特别适合于大数据集和在线学习(Online Learning)的场景。
  • 由于每次迭代只使用部分样本计算梯度,SGD的更新过程可能会更加不稳定,但同时也可能更快地找到局部最优解。

 小批量梯度下降(Mini-batch Gradient Descent):

  • 除了梯度下降和随机梯度下降外,还存在一种折中的方法,即小批量梯度下降。在每次迭代中,它使用一个小批量的样本来计算梯度。
  • 小批量梯度下降结合了梯度下降和SGD的优点,既可以利用并行计算加速训练,又不会因为单一样本的噪声导致更新过于不稳定

 总结:

GD和SGD主要区别为训练过程中使用的样本数量不同,GD需要大开销,SGD不稳定。

2.2 原理:

主要是通过计算样本的损失函数,迭代更新模型参数。让这个\theta不断变换(如下图公式),直到达到最大迭代次数或者损失函数收敛到某个值以内。

 误差函数有很多种可以按需挑选。

 2.3 复杂度

 2.4 使用提示

  1. 对数据进行缩放:将输入向量X上的每个特征缩放为[0,1]或[-1,+1],或将其标准化为均值为0和方差为1
  2. 找到合理的\alpha学习
  3. SGD在观察了大约10^6个训练样本后收敛
  4. 如果将SGD应用于PCA提取的特征,通常明智的做法是将特征值通过某个常数c缩放,使训练数据的L2范数平均值等于1。
  5. 当特征很多或 eta0 很大时, ASGD(平均随机梯度下降) 效果更好。

先写这么多监督算法,后面再慢慢补充,可能还会补充朴素贝叶斯和决策树、特征选择。

大家可以先点赞关注,以后慢慢看哦!


http://www.ppmy.cn/server/9106.html

相关文章

server_id 引发的 MySQL 级联复制同步异常

MySQL 级联复制的坑,我帮你们踩了。 作者:蒋士峰,爱可生 DBA 团队成员,熟悉 MySQL,Oracle 等数据库。每天的积累,时间久了,会带来不一样的收货。 爱可生开源社区出品,原创内容未经授…

Android 混淆模板

保持对外门面类 -keep public class com.xx.devtools.middle.manager.DevLogManager { public *; } 保持model类 -keep public class com.xx.devtools.middle.model.** { public *; } -keep public class com.xx.devtools.middle.Globals { public *; } 保持Bus注册方法 -…

【Interconnection Networks 互连网络】Flattened Butterfly 扁平蝶形拓扑

Flattened Butterfly 扁平蝶形拓扑 1. 传统蝶形网络 Butterfly Topology2. 扁平蝶形拓扑 Flattened Butterfly3.On-Chip Flattened Butterfly 扁平蝶形拓扑应用于片上网络 Flattened Butterfly 扁平蝶形拓扑 扁平蝶形拓扑是一种经济高效的拓扑,适用于高基数路由器…

EF6(Entity Framework 6)基础知识

一、Entity Framework 6 概述 Entity Framework (EF) 是 Microsoft 提供的一个对象关系映射器 (ORM),它使得 .NET 开发人员能够使用 .NET 对象来处理数据库,从而无需经常编写大部分数据访问代码。EF 提供了许多功能,包括更改跟踪、查询构建、…

java spring security oauth2 动态 修改当前登录用户的基础信息以及权限2.0(无需重新登录)

两年前写过一篇动态修改角色和权限当时表述的不是很全面 比如如何修改其他用户权限 修改用户信息没有效果等 再写一篇 如何修改其他用户权限 不管如何改变实际需求就是获取用户token,不管是当前用户还是所有用户 当前用户的token可以通过上下文拿到,而其他用户的token该如何拿…

Flume

目录 Flume概述 Flume架构 Flume案例 入门案例 实时监控单个追加文件 实时监控目录下多个新文件 实时监控目录下的多个追加文件 Flume事务 Flume内部原理 Sorce ->> Channel Channel ->> Sink Flume拓扑结构 复制和多路复用 负载均衡和故障转移 聚合…

高级软考项目管理之项目范围管理

项目范围管理 规划范围管理:为记录如何定义、确认和控制项目范围及产品范围,而创建范围管理计划的过程。 #mermaid-svg-ILyx4A2hFZzF7bry {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-ILyx4A2hFZzF7b…

计算机网络学习Day01|OSI参考模型与TCP/IP模型

目录 一、为什么要设计分层网络模型 二、两个模型各有多少层 三、模型中每一层的作用和顺序关系? OSI模型 数据在OSI模型中是如何流动的 TCP/IP模型 数据在TCP/IP模型中是如何流动的 一、为什么要设计分层网络模型 二、两个模型各有多少层 三、模型中每一层的…