聚类之轮廓系数

server/2024/12/28 15:43:16/

Silhouette Score(轮廓系数)是用于评估聚类质量的指标之一。它衡量了数据点与同簇内其他点的相似度以及与最近簇的相似度之间的对比。

公式

对于一个数据点 i:

  • a(i): 数据点 i 到同簇内其他点的平均距离(簇内不相似度)。
  • b(i): 数据点 i到最近的其他簇中点的平均距离(簇间不相似度)。
  • 轮廓系数计算公式:

  • 其中:
    • −1≤s(i)≤1
    • s(i)≈1: 数据点聚类效果好,点接近同簇而远离其他簇。
    • s(i)≈0: 数据点位于簇边界。
    • s(i)≈−1: 数据点可能被错误分类到其他簇。

整体 Silhouette Score

对于整个数据集,Silhouette Score 是所有数据点 s(i) 的平均值,用于评价整个聚类的质量。

优点

  1. 无需知道数据的真实标签,可用于无监督学习的聚类模型评估。
  2. 提供了直观的数值指标,便于模型调参或聚类效果比较。

应用场景

  • 选择最佳的聚类数 k:通过计算不同 k 的 Silhouette Score,选择分数最高的 k。
  • 比较不同聚类算法的性能,例如 KMeans、DBSCAN 或层次聚类

代码示例(使用 Python)

from sklearn.metrics import silhouette_score
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs# 生成样本数据
X, _ = make_blobs(n_samples=500, centers=4, cluster_std=0.7, random_state=42)# 使用 KMeans 聚类
kmeans = KMeans(n_clusters=4, random_state=42)
labels = kmeans.fit_predict(X)# 计算 Silhouette Score
score = silhouette_score(X, labels)
print("Silhouette Score:", score)

结果解读

  • 如果分数接近 1,说明聚类效果较好。
  • 如果分数接近 0 或为负数,说明聚类效果较差。

http://www.ppmy.cn/server/153950.html

相关文章

javaweb 04 springmvc

0.1 在上一次的课程中,我们开发了springbootweb的入门程序。 基于SpringBoot的方式开发一个web应用,浏览器发起请求 /hello 后 ,给浏览器返回字符串 “Hello World ~”。 其实呢,是我们在浏览器发起请求,请求了我们…

Flink集群批作业实践:七析BI批作业执行

目录 背景 Flink架构介绍 JobManager TaskManager Flink集群模式的选择 Flink集群资源提供者的选择 Flink作业的提交 Flink作业项目开发 user jar准备 作业提交 背景 市场上比较常见的大数据批处理分布式计算引擎有Spark、MapReduce和Hive等,而把Flink当作批作业的执…

盈达智汇是由顶尖团队打造的多元化自治平台

在当今这个日新月异的数字化时代,各类创新平台如雨后春笋般涌现,它们不仅深刻改变了人们的生活方式,更在商业领域掀起了一场前所未有的变革。其中,“盈达智汇”作为一个由顶尖投资与管理团队精心打造的综合性生活平台,…

Flutter将应用打包发布到App Store

使用Flutter将应用打包发布到App Store的详细步骤及流程图: 流程图 #mermaid-svg-X09iOP2FtRxwKsWw {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-X09iOP2FtRxwKsWw .error-icon{fill:#552222;}#mermai…

飞牛 fnos 使用docker部署 OneNav 书签管理器

OneNav简介 OneNav是一款开源的书签管理器,能助力用户轻松管理并访问在线资源。其具备诸多特点,如下: 支持后台管理;支持私有链接;支持Chrome/Firefox/Edge书签批量导入;支持多种主题风格;支持…

网络安全等级保护测评工作流程

一、测评准备活动阶段 首先,被测评单位在选定测评机构后,双方需要先签订《测评服务合同》,合同中对项目范围(系统数量)、项目内容(差距测评?验收测评?协助整改?&#xf…

【ETCD】【实操篇(十七)】 etcd 集群定期维护指南

目录 概述Raft 日志保留键空间历史压缩:v3 API 键值数据库碎片整理空间配额快照备份 概述 为了保持 etcd 集群的可靠性,需要定期进行维护。根据 etcd 应用程序的需求,这些维护通常可以自动化进行,并且不会导致停机或性能显著下降…

路由器刷机TP-Link tp-link-WDR566 路由器升级宽带速度

何在路由器上设置代理服务器? 如何在路由器上设置代理服务器? 让所有连接到该路由器的设备都能够享受代理服务器的好处是一个不错的选择,特别是当需要访问特定的网站或加速网络连接的时候。下面是一些您可以跟随的步骤,使用路由器…