线性分类器(KNN,SVM损失,交叉熵损失,softmax)

server/2024/12/26 10:42:10/

KNN

工作机制

k-近邻算法的工作机制可以分为两个主要阶段:训练阶段和预测阶段。

训练阶段

在训练阶段,k-近邻算法并不进行显式的模型训练,而是简单地存储训练数据集。每个样本由特征向量和对应的标签组成。此阶段的主要任务是准备好数据,以便在预测阶段进行有效的相似性比较。

预测阶段

在预测阶段,k-近邻算法的工作流程如下:

  1. 输入待分类样本:接收一个待分类的样本,其特征向量为 xx。
  2. 计算距离:计算待分类样本与训练集中所有样本之间的距离。常用的距离度量方法包括欧氏距离、曼哈顿距离和闵可夫斯基距离。
  3. 选择k个最近邻:根据计算得到的距离,选择距离待分类样本最近的k个训练样本。
  4. 投票机制
    • 分类任务:对这k个样本的类别进行投票,选择出现次数最多的类别作为预测结果。
    • 回归任务:对这k个样本的值进行平均,得到预测值。
距离度量函数

距离度量是k-近邻算法的关键部分,影响着算法的性能和预测结果。以下是几种常用的距离度量方法:

  • 欧氏距离:最常用的距离度量,适用于连续特征。计算公式为: d ( x , y ) = ∑ i = 1 n ( x i − y i ) 2 d(x,y)=\sqrt{\sum_{i=1}^n(x_i-y_i)^2} d(x,y)=i=1n(xiyi)2
  • 曼哈顿距离:适用于特征值较小或特征之间差异较大的情况。计算公式为: d ( x , y ) = ∑ i = 1 n ∣ x i − y i ∣ d(x,y)=\sum_{i=1}^n|x_i-y_i| d(x,y)=i=1nxiyi
  • 闵可夫斯基距离:是欧氏距离和曼哈顿距离的推广,参数p决定了距离的类型。计算公式为: d ( x , y ) = ( ∑ i = 1 n ∣ x i − y i ∣ p ) 1 p d(x,y)=(\sum_{i=1}^n|x_i-y_i|^p)^{\frac{1}{p}} d(x,y)=(i=1nxiyip)p1
     选择合适的距离度量对于k-近邻算法的效果至关重要,通常需要根据具体问题进行实验和调整。
超参数K的选择

k值的选择直接影响k-近邻算法的性能。k值过小可能导致模型对噪声敏感,容易出现过拟合;而k值过大则可能导致模型过于平滑,无法捕捉到数据的局部结构。

具体请看下图
![[Pasted image 20241221162004.png]]

因此,我们可以使用K折交叉验证来完成。当然,你也可以简单的使用单一训练集+验证集+测试集的方法,不过效果可能不一定好,这取决于你的数据集的质量。一般在数据集质量一般的时候,可以采用K折交叉验证。

它将数据集分成 k 个折叠,每个折叠都会被用作一次测试集。然后我们使用剩下的 k-1 个折叠作为训练集来训练模型,并在每个折叠上进行评估结果为Ei。最终,我们将所有 k 次评估的结果平均,得到最终的模型性能评估。

![[Pasted image 20241221164055.png]]

通过交叉验证,我们可以选择出综合性能更好的K值(超参数)

线性分类器

![[Pasted image 20241221164055.png]]

将输入图像展平,然后与矩阵相乘得到每个类别对应的分数。

![[Pasted image 20241221164320.png]]

视觉角度理解

![[Pasted image 20241221164348.png]]

就是对图像的每个像素点训练出对应的权重。

几何角度

![[Pasted image 20241221164514.png]]

多分类问题损失函数SVM

为了训练网络,我们必然需要建立损失函数
假设有三张图片以及三种分类
![[Pasted image 20241221171959.png]]

这是SVM损失的具体定义:
在这里插入图片描述

SVM 损失的设置是,SVM“希望”每个图像的正确类别的得分比错误类别高出一定幅度Δ。再上图中,Δ为1
可以看下图,蓝色代表的是 s y i − s j s_{y_i}-s_j syisj
可以看到,loss函数的目的就是为了让正确类别的得分比错误类别高1分。

在这里插入图片描述

SoftMax Loss

softmax 函数

![[Pasted image 20241221175748.png]]
主要作用就是将得分转化为概率分布

交叉熵损失

交叉熵函数推导CrossEntropy_交叉熵推导-CSDN博客

可以看这篇文章,写的很好。这里主要介绍一下:
假设有一个概率分布X

信息量

I ( x 0 ) = − l o g ( P ( x 0 ) ) I(x_0)=−log(P(x_0)) I(x0)=log(P(x0))
概率越少,信息量越大

信息熵

信息熵就是信息量的期望
H ( x ) = − ∑ i = 1 n P ( x i ) l o g ( P ( x i ) ) H(x)=−∑^n_{i=1}P(x_i)log(P(x_i)) H(x)=i=1nP(xi)log(P(xi))

相对熵(KL散度)

同一随机变量x,有两个单独的概率分布P(x)和Q(x)。用KL散度来衡量P(x)和Q(x)两个独立分布之间的差异的。KL散度值越小,表示P和Q的分布越接近、
D K L ( P ∣ ∣ Q ) = ∑ i = 1 n P ( x i ) l o g ( P ( x i ) Q ( x i ) ) D_{KL}(P||Q)=∑^n_{i=1}P(x_i)log(\frac{P(x_i)}{Q(xi)}) DKL(P∣∣Q)=i=1nP(xi)log(Q(xi)P(xi))
log里面是除号,因此就是两者相减

交叉熵损失

带入真实场景,我们需要比较的两个概率分布:一个是真实的target,另一个是预测值。
真实的target是确定的,而且只有对应的位置概率为100%,其余都是0.

因此带入KL散度 D K L ( P ∥ Q ) = ∑ i = 1 n P ( x i ) l o g ( P ( x i ) ) − ∑ i = 1 n P ( x i ) l o g ( Q ( x i ) ) D_{KL}(P∥Q)=∑^n_{i=1}P(x_i)log(P(x_i))−∑^n_{i=1}P(x_i)log(Q(x_i)) DKL(PQ)=i=1nP(xi)log(P(xi))i=1nP(xi)log(Q(xi))
我们发现式子前半部分是定值。这对于损失函数来说有没有都一样,因此可以删去。所以最后交叉熵损失函数如下: H ( P , Q ) = − ∑ i = 1 n P ( x i ) l o g ( Q ( x i ) ) H(P,Q)=−∑^n_{i=1}P(x_i)log(Q(x_i)) H(P,Q)=i=1nP(xi)log(Q(xi))
其实较真的来说, P ( x i ) P(x_i) P(xi)中只有一项有意义(=1),所以损失函数其实只有一项(样本只能属于单一类别)
![[Pasted image 20241221200609.png]]


http://www.ppmy.cn/server/153286.html

相关文章

apisix的hmac-auth认证

目录 1、apisix的hmac认证Authorization头信息 2、signature的lua生成源码 3、java生成签证的简单示例 4、postman调用如下 apisix的hmac-auth认证,介绍可以看官方文档 hmac-auth | Apache APISIX -- Cloud-Native API Gateway 照着官方文档,发现生…

【Chrome】浏览器提示警告Chrome is moving towards a new experience

文章目录 前言一、如何去掉 前言 Chrome is moving towards a new experience that allows users to choose to browse without third-party cookies. 这是谷歌浏览器(Chrome)关于隐私策略更新相关的提示 提示:以下是本篇文章正文内容&…

CentOS7 安装MySQL

目录 一、准备工作 二、下载MySQL 三、安装MySQL 四、启动并配置MySQL 五、验证安装 六、修改mysql密码策略 七、MySQL配置允许远程连接 在CentOS 7系统上下载并安装MySQL,你可以按照以下步骤进行: 一、准备工作 检查并卸载MariaDB:…

每天40分玩转Django:实操多语言博客

实操多语言博客 一、今日学习内容概述 学习模块重要程度主要内容国际化配置⭐⭐⭐⭐⭐基础设置、语言切换翻译模型⭐⭐⭐⭐⭐多语言字段、翻译管理视图处理⭐⭐⭐⭐多语言内容展示、URL处理前端实现⭐⭐⭐⭐语言切换、界面适配 二、模型设计 # models.py from django.db im…

KAFKA 权威指南笔记(一)究竟应该配置多少个BROKER?

一个KAFKA集群需要多少个BROKER? 一个单独的Kafka服务器被叫做BROKER,BROKER可以处理数千个分区以及每秒百万级别的消息量。由BROKER组成了“集群”(其中由集群控制器角色的BROKER是从成员中选举出来的,负责控制管理工作&#xf…

asp.net core webapi项目中 在生产环境中 进不去swagger

builder.WebHost.UseUrls 是 ASP.NET Core 中配置应用程序监听 URL 或端口的方法。通过使用这个方法,你可以指定应用程序应该在哪些 URL 上运行,以便接收 HTTP 请求。 1.在appsetting.json中 添加 "LaunchUrl": "http://*:327"2.在…

印度软件业的发展能给中国软件行业什么样的启示和借鉴

印度软件行业的快速发展及其全球影响力为中国软件行业提供了许多宝贵的启示和借鉴。尽管印度与中国的市场和社会经济条件存在差异,但两国在软件行业中的发展路径、挑战和机会有不少相似之处。通过观察印度的经验和教训,中国软件行业可以在以下几个方面获…

【Linux网络编程】第十五弹---传输层深度解析:端口号划分、UDP协议特性与TCP协议全面剖析(含连接管理、流量控制、拥塞控制等)

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】【Linux网络编程】 目录 1、传输层 1.1、再谈端口号 1.1.1、端口号范围划分 1.1.2、认识知名端口号 1.1.3、两个问题 1.2、UDP …