《机器学习》周志华-CH10(降维与度量学习)

news/2024/12/22 16:24:22/

10.1k近邻学习

   k k k近邻(k-Nearest Neighbor,简称kNN),监督学习

  工作机制:给定测试样本,基于某种距离度量找出训练集中与其最靠近的 k k k个训练样本,基于这些”邻居“预测。
{ 分类任务:选择”投票法“。 k 个样本中最多的类别为预测结果 回归任务:选择”平均法“。平均值或加权平均值 \begin{cases} 分类任务:选择”投票法“。k个样本中最多的类别为预测结果 & \\ 回归任务: 选择”平均法“。平均值或加权平均值 \\ \end{cases} {分类任务:选择投票法k个样本中最多的类别为预测结果回归任务:选择平均法。平均值或加权平均值

  KNN是“懒惰学习”代表,没有训练。训练开销为零。待收到测试样本再进行处理。

  在训练阶段对样本进行学习的方式,称为“急切学习

  给定测试样本 x x x,若其最紧邻样本为 z z z,则最近邻分类器出错的概率就是 x x x z z z类别,标记不同的概率,即
在这里插入图片描述

  最近邻分类器虽然简单,但它泛化错误率不超过贝叶斯最优分类器错误率的两倍!

10.2低维嵌入

  在高维情形下出现的数据样本稀疏、距离计算困难等问题,是所有学习>机器学习方法共同面临的困难,称为“维数灾难”。

  缓解维数灾难的一个重要途径是降维,“维数约简”

  “多维缩放”(Multiple Dimensional Scaling,简称MDS)

在这里插入图片描述
d i s t i j 2 = ∣ ∣ z i ∣ ∣ 2 + ∣ ∣ z j ∣ ∣ 2 − 2 z i T z j = b i i + b j j − 2 b i j \begin{equation} \begin{aligned} dist_{ij}^2&=||z_i||^2+||z_j||^2-2z_i^Tz_j \\ &=b_{ii}+b_{jj}-2b_{ij} \end{aligned} \tag{10.3} \end{equation} distij2=∣∣zi2+∣∣zj22ziTzj=bii+bjj2bij(10.3)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  基于线性变换进行降维方法称为线性降维,都符合(10.13)

  不同之处在于对低维子空间性质有不同的要求,对 W W W施加了不同约束

10.3主成分分析

  对正交属性空间中的样本点,如何用一个超平面对所有样本进行表达?

  性质

  1. 最近重构性:样本点到这个超平面的距离都足够近
  2. 最大可分性:样本点在这个超平面的投影尽可能分开

  从最近重构性推导:

在这里插入图片描述

  从最大可分性推导:

  样本点 x i x_i xi在新空间超平面投影是 W T x i W^Tx_i WTxi

  若要使尽可能分开,则使投影后样本点的方差最大化。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

10.4核化线性降维

  若直接使用线性降维方法对三维空间观察到的样本进行降维,则将丢失原本的低维结构。

  “原本采样的”低维空间称为“本真”低维

  **非线性降维的一种常见方法是基于核技巧对线性降维方法进行“核化”**以主成分分析KPCA为例:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

10.5流形学习

  流形学习(manifold learning)是一类借鉴拓补流形概念的降维。“流形”是在局部与欧氏距离空间同胚的空间。局部具有欧氏距离的性质。

10.5.1等度量映射(Isometric Maping,简称Isomap)

  低维嵌入流形上的测地线距离不能用高维空间的直线距离计算,但能用近似距离来近似

  如何计算测地线距离

  利用流形在局部上与欧氏距离同胚这个性质,计算两点之间测地线距离的问题,就转变为计算近邻连接图上两点之间最短路径问题。

  在近邻连接图上计算两点之间最短路径,著名的Dijkstra算法或者Floyd算法

   I s o m a p Isomap Isomap仅是得到了训练样本在低维空间的坐标,对于新样本,将高维空间坐标作为输入,低维空间坐标作为输出,训练一个回归学习器来对新样本的低维空间坐标进行预测。

  近邻图构建的两种方法:

  1. 指定邻点个数,如欧氏距离最近的 k k k个点为近邻点, k k k近邻图。
  2. 指定距离阈值 ξ \xi ξ,距离小于 ξ \xi ξ的店被认为是近邻点, ξ \xi ξ近邻图。
10.5.2局部线性嵌入

  局部线性嵌入(Locally Liner Embedding,简称LLE)保持样本之间的线性关系。

  假定样本点 x i x_i xi能通过邻域样本 x j x_j xj, x k x_k xk, x l x_l xl的坐标经过线性组会重构:
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

10.6度量学习

在这里插入图片描述
在这里插入图片描述

  假定希望提高近邻分类器的性能,将 M M M嵌入到评价指标中,优化该性能指标相应求 M M M

  近邻分类器判别时通常用多数投票法(领域中1票,领域外0票)

  替换为概率投票法,对任意样本 x j x_j xj x i x_i xi分类影响的概率为:
在这里插入图片描述
在这里插入图片描述

  

  

  

  

  

  

  

  

  


http://www.ppmy.cn/news/1535887.html

相关文章

解决Python使用Selenium 时遇到网页 <body> 划不动的问题

如果在使用 Selenium 时遇到网页的 <body> 划不动的问题&#xff0c;这通常是因为页面的滚动机制&#xff08;例如&#xff0c;可能使用了一个具有固定高度的容器或自定义的滚动条&#xff09;导致无法通过简单的 JavaScript 实现滚动。可以通过以下方法来解决该问题。 …

STM32(五)GPIO输入硬件电路及C语言知识复习

本小节主要是GPIO输入模式下的硬件电路和C语言知识的回顾 C语言中的数据&#xff1a;定义和引用 一、GPIO输入模式下的硬件和电路 1.按键介绍 可以用延时函数消除按键抖动 2.传感器模块介绍 &#xff08;1&#xff09;传感器元件的电阻会随模拟量的变化而变化&#xff0c;通…

【2024年最新】基于springboot+mysql就业信息管理系统

技术摘要 技术框架&#xff1a;以springboot作为框架&#xff0c;业务模式&#xff1a;B/S模式数据库&#xff1a;MySql作为后台运行的数据库服务器&#xff1a;使用Tomcat用为系统的服务器 系统展示 系统实现功能 本次实现一个就业信息管理系统&#xff0c;通过这个系统能够满…

k8s 之安装busybox

作者&#xff1a;程序那点事儿 日期&#xff1a;2024/02/12 14:56 busybox是linux的一个工具镜像&#xff0c;包含我们常用的一些工具。可以利用这个工具来做一些测试的操作。 安装命令 # 运行一个容器。 kubectl run -it --image busybox:1.28.4 dns-test --restartN…

上海我店:创新模式引领本地生活新风尚

近年来&#xff0c;一个名为“上海我店”的新兴平台在网络空间中迅速崛起&#xff0c;其公布的业绩令人瞩目——在短短三年内&#xff0c;交易流水已跨越百亿大关&#xff0c;并在最近一个月内迎来了近百万的新增注册用户。这一强劲的增长势头&#xff0c;无疑吸引了众多商家和…

EtherNet/IP 转 EtherNet/IP, EtherCAT/Ethernet/IP/Profinet/ModbusTCP协议互转工业串口网关

EtherCAT/Ethernet/IP/Profinet/ModbusTCP协议互转工业串口网关https://item.taobao.com/item.htm?ftt&id822721028899 协议转换通信网关 EtherNet/IP 转 EtherNet/IP GW系列型号 MS-GW22 概述 简介 MS-GW22 是 EtherNet/IP 和 EtherNet/IP 协议转换网关&#xff0c;…

uni-app之旅-day01-home页

首页 3.0 创建 home 分支 &#x1f355;&#x1f355;&#x1f355;运行如下的命令&#xff0c;基于 master 分支在本地创建 home 子分支&#xff0c;用来开发和 home 首页相关的功能git branch(查看分支)git checkout -b home(创建home分支) 3.1 配置网络请求 &#x1f32…

微服务实战——ElasticSearch(搜索)

商品检索——ElasticSearch&#xff08;搜索&#xff09; 1. 检索条件&排序条件分析 全文检索&#xff1a;skuTitle -> keyword排序&#xff1a;saleCount&#xff08;销量&#xff09;、hotScore&#xff08;热度分&#xff09;、skuPrice&#xff08;价格&#xff0…