简述-关于Kmeans轮廓系数随着聚类个数的增加后减少的问题

news/2025/2/11 5:20:05/

当我们在做Kmeans聚类的准备工作时,通常会用到手肘法(elbow method)或者轮廓系数(silhouette score)去找到最佳簇类个数。

对于轮廓系数寻找法,理论上来说,轮廓系数会随着聚类个数的增加而增加,再而减少,直到我们找到最大的轮廓系数对应的簇类个数。如下图。
在这里插入图片描述

但实际在某些情况下,会出先减少后增加再减少的“过山车”or“凸点”情况,这其中是由于数据的特性和聚类算法的性质所导致的。
在这里插入图片描述
参考轮廓系数的公式
S ( i ) = b i − a i m a x ( a i , b i ) S(i)=\frac{b_i-a_i}{max(a_i,b_i)} S(i)=max(ai,bi)biai

  • a i a_i ai:即样本点i到所属簇类点的平均距离,表示为凝聚度
  • b i b_i bi:即样本点i到非所属簇类点的平均距离,表示为分离度

当出现轮廓系数在初始阶段比较大情况时,有可能此时 b i b_i bi远远大于 a i a_i ai,分离度较高,导致 a i a_i ai在增加过程中远不及 b i b_i bi分离度带来的影响大,而当簇类个数增加时,会使得 b i b_i bi逐渐减小,此时轮廓系数会变小。当簇类之间的距离区域稳定后,才会慢慢的呈现轮廓系数先升高后降低的趋势。此时的轮廓系数最高点对应的簇类个数可能才作为我们的最佳聚类个数。

话说回来,“过山车”情况是由于数据的特性和聚类算法的性质所导致的,所以我们的在找最佳聚类个数时,可以通过改变Kmeans算法的种子数seed,使得初始化不同簇类中心点的位置不会离得这么远,这样才能做到轮廓系数先增加后减少的趋势。


http://www.ppmy.cn/news/71745.html

相关文章

win10设置notepad++默认打开txt - 两步解决

第一步:Notepad注册.txt 以管理员的方式打开notepad 步骤:打开设置 -> 首选项 -> 文件关联 双击.txt .txt移动到注册框即可 第二步 设置Notepad默认打开 按照以下步骤将Notepad设置为默认打开.txt文件: 右键单击任何一个.txt文件…

怎么有效地查询MySQL表中的重复数据

在MySQL数据库中,偶尔会遇到需要查找表中出现的重复数据的情况。这种情况下,我们可以通过编写一些SQL查询语句轻松地找到并处理这些重复行。本文将介绍一些常见的方法和技巧,帮助你有效地查询MySQL表中的重复数据。 方法一:使用C…

RK3568 lt9211D(lt9211C)MIPI转双Port LVDS 驱动调试

前言:Lontium LT9211D 是一款高性能 MIPI DSI/CSI-2 至双端口 LVDS 转换器。LT9211D 对输入 MIPI 视频数据进行反序列化,对数据包进行解码,并将格式化的视频数据流转换为 AP 和移动显示面板或摄像机之间的 LVDS 发射器输出。 lt9211D 是 Lt9211的裁剪版本寄存器有差异不能使…

Linux 系统修改环境变量的方法

1. Linux 系统修改环境变量 正常情况下改变环境变量可以修改的文件有两类: 第一类是 “系统的全局环境变量”,修改之后可作用于整个系统包含的所有用户都会生效;(文件:/etc/profile) 第二类是 “局部环境变量”,也就…

【HTTPS加密】

🎉🎉🎉点进来你就是我的人了博主主页:🙈🙈🙈戳一戳,欢迎大佬指点! 欢迎志同道合的朋友一起加油喔🤺🤺🤺 目录 1.HTTPS 是什么 1.1 运营商劫持 1.2 关于加密…

网络安全自学误区

一、怎么入门? 如果你把每周要学的内容精细化到这种程度,你还会担心学不会,入不了门吗,其实说到底就是学了两个月,但都是东学一下,西学一下,什么内容都是浅尝辄止,没有深入进去&…

java依赖注入

依赖注入是一种设计模式,它允许我们将依赖项从一个对象传递到另一个对象,从而使代码更加灵活和可测试。在 Java 中,通常使用依赖注入容器来管理对象之间的依赖关系。 下面是一个简单的例子来说明依赖注入在 Java 中的用法: 假设…

Python程序员职业现状分析,想提高竞争力,就要做到这六点

现今程序员群体数量已经高达几百万,学历和收入双高,月薪普遍过万。今天,我们就围绕90后程序员人群分析、职业现状、Python程序员分析等,进行较为全面的报告分析和观点论述。 一、程序员人群分析 人数规模上:截当前程…