非监督式机器学习:群集

embedded/2024/9/24 12:20:29/

聚类分析是一种非监督式机器学习形式,在此形式下,基于观察值的数据值或特征的相似性,将观察值分组到群集中。 这种就是非监督式机器学习,因为它不使用先前已知的标签值来训练模型。 在聚类分析模型中,标签是群集,仅根据该群集特征向群集分配观察结果。

示例 - 聚类分析
例如,假设一位植物学家观察花的样本,并记录每支花上的叶子和花瓣的数量:

数据集中没有已知的标签,只有两个特征。 目的不是识别花的不同类型(品种);而是根据叶子数和花瓣数将相似的花朵分组在一起。



叶子 (x1)    花瓣 (x2)
0    5
0    6
1    3
1    3
1    6
1    8
2    3
2    7
2    8
训练聚类分析模型
有多种算法可用于聚类分析。 最常使用的算法之一是 K-Means 聚类分析,其中包括以下步骤:

对特征值 (x) 进行向量化以定义 N 维坐标(其中 N 是特征数)。 在花的示例中,有两个特征:叶子数 (x1) 和花瓣数 (x2)。 因此,特征向量具有两个坐标,可用于在二维空间中以概念形式绘制数据点 ([x1,x2])
决定要使用多少个群集来给花分组,并将此值称为 k。 例如,若要创建三个群集,则 k 值为 3。 然后,在随机坐标中绘制 k 点。 这些点将成为每个群集的中心点,因此它们被称为质心。
每个数据点(在本例中为一朵花)都被分配到最近的质心。
每个质心将根据分配给它的数据点之间的平均距离,移动到这些数据点的中心。
移动质心后,数据点现在可能更接近其他质心,因此数据点将根据新的最近的质心重新分配给群集。
质心移动和群集重新分配步骤会重复执行,直到群集变得稳定或达到预定的最大迭代次数为止。
下面的动画展示了此过程:

评估聚类分析模型
由于没有可用于比较预测群集分配的已知标签,因此聚类分析模型的评估基于生成的群集彼此的分离程度。

可以使用多个指标来评估群集分离情况,包括:

距群集中心的平均距离:群集中的每个点与群集的质心的平均接近程度。
距其他中心的平均距离:群集中的每个点与所有其他群集的质心的平均接近程度。
距聚类中心的最大距离:群集中的点与其质心之间的最远距离。
剪影:介于 -1 和 1 之间的值,用于汇总同一群集中的点与不同群集中的点之间的距离比率(越接近 1,群集分离效果越好)。


http://www.ppmy.cn/embedded/109900.html

相关文章

Java设计模式【备忘录模式】-行为型

1. 介绍 备忘录模式(Memento Pattern) 是一种行为型设计模式,允许在不破坏封装的前提下,捕获并保存一个对象的内部状态,然后可以在以后将其恢复到原先保存的状态。备忘录模式的核心思想是记录和恢复对象的状态&#x…

Catia的插件不能调用CAA 的API问题

今天到客户实施Catia二开软件,发现在客户的电脑上调用CAA的API出现调用失败的问题。 根据经验,想到大概是用户电脑上的Catia授权有问题,但是Catia的一大堆授权中需要哪些授权呢,最后花了半天的时间使用二分法测试出,C…

VS2010程序打包为可执行安装程序

说明 记录一下下次再用时省点事儿,直接进入正题吧 步骤 1. 首先把该装好的软件装好,然后创建一个 安装项目 , 如下图 2. 右键 应用程序文件夹 的 添加 , 如下图可添加要打包的文件(和文件夹,文件夹需要添加文件夹),一般是已经编…

前后端时间传递之注解

一、前言 前后端进行数据交互时,对于时间总会出现问题,今天我们来总结一下这么解决。 二、前端传后端(DateTimeFormat) 前端给后端传递时间参数的时候传递的都是String类型的数据,后端如果用数据库类型Date来接收的…

结构开发笔记(七):solidworks软件(六):装配摄像头、摄像头座以及螺丝,完成摄像头结构示意图

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/141931518 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

Super Image 2.1.0 图像处理软件,修复老照片、无损放大、智能修复,本地处理保护隐私

1.一款开源免费、功能强大的图像处理软件 2.支持修复老照片、增大图片尺寸、智能修复等 3.本地处理,无需担心隐私问题 链接:https://pan.quark.cn/s/891ef24f337b 📁大小:163M 🏷标签:#Super Image #图像…

深度学习500问——Chapter13:优化算法(3)

文章目录 13.16 如何提升模型的稳定性 13.17 有哪些改善模型的思路 13.17.1 数据角度 13.17.2 模型角度 13.17.3 调参优化角度 13.17.4 训练角度 13.18 如何快速构建有效初始模型 13.19 如何通过模型重新观察数据 13.20 如何解决数据不匹配问题 13.20.1 如何定位数据不…

基于STM32设计的18650锂电池电量(电压/电流)检测系统——采用电阻分压法、均值滤波及ADC测量—文末工程资料下载

基于STM32设计的锂电池电量(电压/电流)检测 前言:使用STM32F103C8T6的ADC,和电阻分压法及均值滤波来测量18650锂电池的电压,并在OLED显示屏上显示电池电压值,求出电池电压值即求出电池的电流值和电量值。本…