机器学习-KNN

news/2024/10/3 16:19:34/

KNN:K最邻近算法(K-Nearest Neighbor,KNN)

用特征空间中距离待分类对象的最近的K个样例点的类别来预测。

投票法:K 个样例的对数类别。

  1. k=1:最近邻分类

  2. k 通常是奇数(因为我们根据这个K数据判断类别,如果是偶数可能出现类别对半的情况)

基于实例学习:不需要训练。

K 最邻近算法步骤:

  1. 计算待分类对象鱼所有样例点的距离,找出 K 个距离最近的点。(目前用欧氏距离)

  2. 通过这 K 个点的投票决定待分类对象的类别。

    1. 等权投票

    2. 加权投票:相似度加权

如图:K =3,分类结果是三角形

          k=5,分类结果是正方形

如果我们进行了加权,即便是K=5,由于实例点离三角形特别近,分类结果也有可能为三角形

如何确定K

  1. K 太小,对噪音点敏感(早点附近的点,将都被分错)

  2. K太大,模型不细致(如果 K 是所有样本数,那么分类结果将是训练数据中数量最多的类别,相当于朴素贝叶斯分类器中,只用了先验概率)

  3. K权限 模型复杂度和经验风险

  4. 交差验证

K-D Tree(K-Dimensional Tree)

KD Tree 是一种数据结构。对 k 维空间里的点进行组织,存储为树形的数据结构。

KD Tree 为K维空间进行分割,主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。

                                              图1

如图1:空间先按红线分割,然后前后两个空间分别按绿色线分割,然后在四个空间中再按蓝色线分割

建树:

  1. 对当前所有点,依次按照一个维度的中位数为切分线进行切割,将当前区域分为两个区域,小于中位数放到左边,大于中位数放到右边。

  2. 重复步骤1,直到没有点可分停止。

查找方法:(查找目标为x)

  1. 在KD 树中自上而下按照建树的规则,找 x 对应的叶子节点,当做最近点,计算当前最近距离。

  2. 从该叶节点开始,从底向上,重复直到根节点:计算当前节点的父节点的切分面到 x 的距离;如果该距离小于当前前最优距离,则在改父节点的另一子区域查找最近点,否则忽略该子区域,直接到上一层查找。

KD 树练习:

数据(2,3)(5,4)(9,6)(4,7)(8,1)(7,2)

查找最近邻近点:(4,5)(4,6)

                                      图2                                                              图3        

注意:

  1. 图2 示:分割维度是依次轮换换着的。 

  2. K>1:我们需要在KD Tree中维护一个数据,只要到分割面距离或者到其他节点的距离小于数组总最大距离,就必须计算,因有可能存在节点去替换数组中的节点。

  3. KD这个数组,我是在前几轮算节点距离时,给填满的。


http://www.ppmy.cn/news/1533996.html

相关文章

前端框架对比与选择

前端框架对比与选择 1. React2. Vue.js3. Angular4. Svelte5. Next.js 和 Nuxt.js选择建议: 在前端开发中,选择合适的前端框架对于开发效率和项目的长期维护非常重要。以下是当前主流前端框架的对比,以及适用场景分析: 1. React …

【C++】面向对象编程的三大特性:深入解析多态机制

C语法相关知识点可以通过点击以下链接进行学习一起加油!命名空间缺省参数与函数重载C相关特性类和对象-上篇类和对象-中篇类和对象-下篇日期类C/C内存管理模板初阶String使用String模拟实现Vector使用及其模拟实现List使用及其模拟实现容器适配器Stack与QueuePriori…

C#测试调用Ghostscript.NET浏览PDF文件

Ghostscript.NET是针对Ghostscript的C#封装库,支持解析PostScript语言、操作PDF文件等。使用Ghostscript.NET的GhostscriptViewer 模块可以以图片形式查看PDF文档。本文学习并测试调用Ghostscript.NET模块打开及浏览PDF文件的基本用法。   Ghostscript.NET目前主要…

【Rust网络编程】开发一个图片代理和统计服务

最近我使用Rust开发了一个代理服务。可以用于代理和统计图片资源的访问 例如: http://127.0.0.1:8100/image-public/0a1e65f4-7ced-4ef0-ba7d-12ec4d14a0d4.png ->http://xxx.com:45004/image-public/0a1e65f4-7ced-4ef0-ba7d-12ec4d14a0d4.png 项目特点 高性…

Linux中配置docker环境

1.基础信息了解 (1)docker信息了解,docker官网 https://www.docker.com/,docker中文网 https://dockerdocs.cn/,还可以了解下虚拟化和容器化的知识,虚拟化和容器化 (2)查看当前Lin…

接口 抽象类

接口和抽象类都是用来实现面向对象编程中的抽象概念的工具。 接口是一种抽象的数据类型,它定义了一组抽象方法。接口中的方法没有具体的实现,只有方法的声明。类可以实现一个或多个接口,并实现接口中的方法。接口提供了一种规范,…

C++平台跳跃游戏

目录 开头程序Game.cpp源文件Player.h头文件Player.cpp源文件 程序的流程图程序游玩的效果下一篇博客要说的东西 开头 大家好&#xff0c;我叫这是我58。 程序 Game.cpp源文件 #include <iostream> #include "Player.h" using namespace std; void printma…

NVLM多模态 LLM 在图像和语言任务中的表现优于 GPT-4o

论文地址&#xff1a;https://arxiv.org/pdf/2409.11402 背景 传统的多模态 LLM 有两种主要方法&#xff1a;纯解码器架构&#xff08;如 LLaVA&#xff09;和基于交叉注意力的架构&#xff08;如 Flamingo&#xff09;。混合架构&#xff0c;既提高了训练效率&#xff0c;又增…