判断聚类 n_clusters

news/2024/10/23 9:40:38/

目录

基本原理

代码实现:

肘部法则(Elbow Method):

轮廓系数(Silhouette Coefficient)

Gap Statistic(间隙统计量):

Calinski-Harabasz Index(Calinski-Harabasz指数):


基本原理

这些方法(肘部法则、轮廓系数、Gap Statistic、Calinski-Harabasz Index)都是用于确定聚类算法中的 n_clusters(簇的数量)参数,但它们之间存在一些区别。下面是它们的主要特点以及适用情况的总结:

  1. 肘部法则(Elbow Method):

    • 特点:通过绘制聚类结果的损失函数值与 n_clusters 的关系图,找到“肘部”处的拐点作为最佳 n_clusters
    • 适用情况:当数据集的聚类结构明显时,该方法通常有效。但是,对于数据集没有明显的肘部的情况,或者肘部并不明显时,该方法可能无法提供确定的最佳 n_clusters
  2. 轮廓系数(Silhouette Coefficient):

    • 特点:计算每个样本的轮廓系数(介于-1和1之间),并计算出所有样本的平均轮廓系数。最大化平均轮廓系数可以确定最佳的 n_clusters
    • 适用情况:适用于各种类型的数据集,尤其是数据分布相对均匀且没有明显的几何形状的聚类结构。需要注意的是,轮廓系数的计算复杂度较高,对于大型数据集可能会有一定的性能开销。
  3. Gap Statistic(间隙统计量):

    • 特点:通过比较聚类结果与随机数据模拟结果的区别,使用统计学原理来选择最佳 n_clusters。Gap Statistic 值越大,表示聚类效果越好。
    • 适用情况:适合于具有明显聚类结构的数据集,对于不同密度、大小和形状的聚类表现较好。需要注意的是,该方法对数据集的假设要求较高,在某些情况下可能会得到不准确的结果。
  4. Calinski-Harabasz Index(Calinski-Harabasz指数):

    • 特点:通过计算聚类之间的离散度与聚类内部的紧密度之比,确定最佳的 n_clusters。Calinski-Harabasz 指数值越大,表示聚类效果越好。
    • 适用情况:适合于具有清晰、凸形状的聚类结构的数据集。对噪声和异常值比较敏感,处理非凸形状的聚类时可能出现一些偏差。

在选择适当的方法时,应综合考虑以下因素:

  • 数据特征:数据集的聚类结构、形状、噪声以及是否具有明显的几何形态等特征。
  • 算法要求:不同的方法可能对数据集的假设和计算复杂度有不同的要求。
  • 领域知识:对数据集具有领域知识,可以帮助理解数据的特点,并选择适合的评估指标和方法。

代码实现:

肘部法则(Elbow Method):

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
# 肘部法则(Elbow Method):绘制不同 n_clusters 下的聚类误差平方和(SSE)曲线。
# 观察 SSE 曲线的形状,找到一个"肘部弯曲点",
# 即在该点后,SSE 的下降速度变得缓慢。
# "肘部弯曲点"对应的 n_clusters 值就是一个合适的选择。
#
# 例如,在上述代码示例中,使用 plt.plot(k_range, sse, 'bx-') 绘制了 SSE 曲线。观察曲线,如果在某个 n_clusters 值处出现明显弯曲,且在该点之后 SSE 的下降速度变得缓慢,那么该 n_clusters 值可以被认为是一个合适的选择。# 加载Iris数据集
iris = load_iris()# 构造K-Means聚类模型
model = KMeans()# 肘部法则选择n_clusters
sse = []
k_range = range(2, 10)  # 需要尝试的n_clusters范围
for k in k_range:model.set_params(n_clusters=k)model.fit(iris.data)sse.append(model.inertia_)plt.plot(k_range, sse, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('SSE')
plt.title('The Elbow Method')
plt.show()# 轮廓系数选择n_clusters
silhouette_scores = []
for k in k_range:model.set_params(n_clusters=k)labels = model.fit_predict(iris.data)score = silhouette_score(iris.data, labels)silhouette_scores.append(score)plt.plot(k_range, silhouette_scores, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('Silhouette Coefficient')
plt.title('Silhouette Score')
plt.show()

轮廓系数(Silhouette Coefficient)

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score# 加载Iris数据集
iris = load_iris()# 构造K-Means聚类模型
model = KMeans()k_range = range(2, 10)  # 需要尝试的n_clusters范围
silhouette_scores = []
for k in k_range:model.set_params(n_clusters=k)labels = model.fit_predict(iris.data)score = silhouette_score(iris.data, labels)silhouette_scores.append(score)plt.plot(k_range, silhouette_scores, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('Silhouette Coefficient')
plt.title('Silhouette Score')
plt.show()
  1. Gap Statistic(间隙统计量):

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import pairwise_distances
from sklearn.metrics import silhouette_score
# 选择 Gap Statistic 最大的 n_clusters 值。
# 加载Iris数据集
iris = load_iris()# 构造K-Means聚类模型
model = KMeans()k_range = range(2, 10)  # 需要尝试的n_clusters范围
gap_scores = []
for k in k_range:model.set_params(n_clusters=k)labels = model.fit_predict(iris.data)dist_matrix = pairwise_distances(iris.data)gap = np.mean(np.log(np.mean(np.min(dist_matrix[:, labels], axis=1))))gap_scores.append(gap)plt.plot(k_range, gap_scores, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('Gap Statistic')
plt.title('Gap Statistic')
plt.show()
  1. Calinski-Harabasz Index(Calinski-Harabasz指数):

import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import calinski_harabasz_score
# 选择具有最大 Calinski-Harabasz 指数的 n_clusters 值。
# 加载Iris数据集
iris = load_iris()# 构造K-Means聚类模型
model = KMeans()k_range = range(2, 10)  # 需要尝试的n_clusters范围
calinski_scores = []
for k in k_range:model.set_params(n_clusters=k)labels = model.fit_predict(iris.data)score = calinski_harabasz_score(iris.data, labels)calinski_scores.append(score)plt.plot(k_range, calinski_scores, 'bx-')
plt.xlabel('Number of Clusters (k)')
plt.ylabel('Calinski-Harabasz Index')
plt.title('Calinski-Harabasz Index')
plt.show()


http://www.ppmy.cn/news/1069083.html

相关文章

Java进阶篇--泛型

前言 Java 泛型(generics)是 JDK 5 中引入的一个新特性, 泛型提供了编译时类型安全检测机制,该机制允许程序员在编译时检测到非法的类型。它允许在定义类、接口和方法时使用类型参数。这种技术使得在编译期间可以使用任何类型,而…

StarRocks入门到熟悉

1、部署 1.1、注意事项 需要根据业务需求设计严谨的集群架构,一般来说,需要注意以下几项: 1.1.1、FE数量及高可用 FE的Follower要求为奇数个,且并不建议部署太多,通常我们推荐部署1个或3个Follower。在三个Followe…

Flutter可执行屏幕动画的AnimateView

1.让动画使用起来就像使用widget。 2.可自定义动画。 3.内置平移动画。 演示: 代码: import dart:math; import package:flutter/cupertino.dart;class AnimateView extends StatefulWidget {///子Widgetfinal Widget child;///动画自定义final IAnimate? anim…

复数的四则运算(java版)

复数的四则运算(java版) 目录 复数的四则运算(java版)介绍复数的四则运算实现思路代码1、封装复数类2、测试复数类3、代码测试结果 介绍 复数,为实数的延伸,它使任一多项式方程都有根。复数当中有个“虚数单…

设计模式—职责链模式(Chain of Responsibility)

目录 思维导图 什么是职责链模式? 有什么优点呢? 有什么缺点呢? 什么场景使用呢? 代码展示 ①、职责链模式 ②、加薪代码重构 思维导图 什么是职责链模式? 使多个对象都有机会处理请求,从而避免请…

day48 动规.p9

- 198.打家劫舍 cpp class Solution { public: int rob(vector<int>& nums) { if (nums.size() 1) return nums[0]; vector<int> dp(nums.size(), 0); dp[0] nums[0]; dp[1] max(nums[0], nums[1]); for (int i 2; i < nums.size(); i) { dp[i] max(…

PDF制作成翻页电子书

在日常工作中&#xff0c;大部分人使用的都是PDF文档发送给客户&#xff0c;但是PDF文档通常是静态的&#xff0c;缺乏交互性和视觉吸引力。那你有没有想过把它转换成翻页的电子书呢&#xff1f; 小编将告诉你操作步骤&#xff0c;非常简单 1.搜索FLBOOK在线制作电子杂志平台 …

大数据Flink实时计算技术

1、架构 2、应用场景 Flink 功能强大&#xff0c;支持开发和运行多种不同种类的应用程序。它的主要特性包括&#xff1a;批流一体化、精密的状态管理、事件时间支持以及精确一次的状态一致性保障等。在启用高可用选项的情况下&#xff0c;它不存在单点失效问题。事实证明&#…