聚类问题（K-means，系统聚类，SBSCAN算法）

K-means算法

大概的流程

优缺点

步骤

例题：根据消费习惯来对省份进行分类

下面是spss的实操

系统/层次聚类

原理

步骤（以凝聚式聚类为例）

聚类分析需要注意的问题

类型

下面是spss操作

补充：

编辑

优缺点

DBSCAN算法

1.原理

算法步骤

K-means算法

一种广泛应用的无监督学习算法，用于将数据集划分为 K 个不同的簇（cluster），使得同一簇内的数据点相似度较高，而不同簇间的数据点相似度较低。

大概的流程

一、指定需要划分的簇[cù]的个数K值)(类的个数)

二、随机地选择K个数据对象作为初始的聚类中心(不一定要是我们的样本点);

三、计算其余的各个数据对象到这K个初始聚类中心的距离，把数据对象划归到距离它最近的那个中心所处在的簇类中:

四、调整新类并且重新计算出新类的中心;

五、循环步骤三和四，看中心是否收敛(不变)，如果收敛或达到迭代次数则停止循环:

六、结束

优缺点

优点

简单快速：算法原理简单，易于理解和实现，计算复杂度相对较低，在处理大规模数据集时表现良好。

聚类效果较好：对于球形分布的数据，通常能得到不错的聚类结果，在许多实际应用中能有效地发现数据中的自然分组结构。

缺点

需预先指定簇的数量K ：然而，在实际应用中，合适的 K值往往难以确定。不同的值可能导致不同的聚类结果，选择不当可能无法准确反映数据的内在结构。

对初始簇中心敏感：初始簇中心的选择会影响最终的聚类结果。不同的初始值可能导致算法收敛到不同的局部最优解，从而得到差异较大的聚类结果。

对噪声和离群点敏感：由于簇中心是通过数据点的均值计算得到的，噪声和离群点可能会对簇中心的位置产生较大影响，进而影响聚类效果。

步骤

可以使用K-means++算法对选择初始化聚类中心进行优化:初始化的聚类种的中心之间尽可能的相隔远一点

步骤一:随机选取一个样本作为第一个聚类中心;

步骤二:计算每个样本与当前已有聚类中心的最短距离(即与最近一个聚类中心的距离)，这个值越大，表示被选取作为聚类中心的概率较大;最后，用轮盘法(依据概率大小来进行抽选)选出下一个聚类中心;

步骤三:重复步骤二，直到选出K个聚类中心。选出初始点后，就继续使用标准的K-means算法了

类似迪杰斯特拉算法但是是每次大概率选择最远的路,更新最近的.

例题：根据消费习惯来对省份进行分类

省份	食品	衣着	家庭设备	医疗	交通	娱乐	居住	杂项
北京	2959.19	730.79	749.41	513.34	467.87	1141.82	478.42	457.64
天津	2459.77	495.47	697.33	302.87	284.19	735.97	570.84	305.08
河北	1495.63	515.9	362.37	285.32	272.95	540.58	364.91	188.63
山西	1406.33	477.77	290.15	208.57	201.5	414.72	281.84	212.1
内蒙古	1303.97	524.29	254.83	192.17	249.81	463.09	287.87	192.96
辽宁	1730.84	553.9	246.91	279.81	239.18	445.2	330.24	163.86
吉林	1561.86	492.42	200.49	218.36	220.69	459.62	360.48	147.76
黑龙江	1410.11	510.71	211.88	277.11	224.65	376.82	317.61	152.85
上海	3712.31	550.74	893.37	346.93	527	1034.98	720.33	462.03
江苏	2207.58	449.37	572.4	211.92	302.09	585.23	429.77	252.54
浙江	2629.16	557.32	689.73	435.69	514.66	795.87	575.76	323.36
安徽	1844.78	430.29	271.28	126.33	250.56	513.18	314	151.39
福建	2709.46	428.11	334.12	160.77	405.14	461.67	535.13	232.29
江西	1563.78	303.65	233.81	107.9	209.7	393.99	509.39	160.12
山东	1675.75	613.32	550.71	219.79	272.59	599.43	371.62	211.84
河南	1427.65	431.79	288.55	208.14	217	337.76	421.31	165.32
湖南	1942.23	512.27	401.39	206.06	321.29	697.22	492.6	226.45
湖北	1783.43	511.88	282.84	201.01	237.6	617.74	523.52	182.52
广东	3055.17	353.23	564.56	356.27	811.88	873.06	1082.82	420.81
广西	2033.87	300.82	338.65	157.78	329.06	621.74	587.02	218.27
海南	2057.86	186.44	202.72	171.79	329.65	477.17	312.93	279.19
重庆	2303.29	589.99	516.21	236.55	403.92	730.05	438.41	225.8
四川	1974.28	507.76	344.79	203.21	240.24	575.1	430.36	223.46
贵州	1673.82	437.75	461.61	153.32	254.66	445.59	346.11	191.48
云南	2194.25	537.01	369.07	249.54	290.84	561.91	407.7	330.95
西藏	2646.61	839.7	204.44	209.11	379.3	371.04	269.59	389.33
陕西	1472.95	390.89	447.95	259.51	230.61	490.9	469.1	191.34
甘肃	1525.57	472.98	328.9	219.86	206.65	449.69	249.66	228.19
青海	1654.69	437.77	258.78	303	244.93	479.53	288.56	236.51
宁夏	1375.46	480.89	273.84	317.32	251.08	424.75	228.73	195.93
新疆	1608.82	536.05	432.46	235.82	250.28	541.3	344.85	214.4

下面是spss的实操

分析->分类->k均值聚类

下面表示分为两类(这里的k要设置的方便解释)

迭代可以调整最大迭代次数

保存可以保存得出的一些额外的数据

选项

系统/层次聚类

聚类分析中的一种重要方法，它能够构建出一棵具有层次结构的聚类树，展示数据点之间的亲疏关系。

原理

基本思想：系统聚类基于数据点之间的相似性度量，通过不断合并或分裂数据点，形成具有层次结构的聚类结果。它假设数据点之间存在一种自然的层次关系，这种关系可以通过聚类树直观地展现出来。

相似性度量：常用的相似性度量方法包括欧氏距离、曼哈顿距离等用于衡量数值型数据点之间的距离，以此反映它们的相似程度。距离越小，数据点之间的相似性越高。

步骤（以凝聚式聚类为例）

1.初始化：将每个数据点看作一个单独的类，此时类的数量等于数据点的数量。

2.计算类间距离：使用选定的距离度量方法（如欧氏距离），计算每两个类之间的距离。常用的样品之间的距离计算方法有：(xik表示第i个样品的第k个指标)

1)绝对值距离:

2)欧式距离法:

(下面的都不常用)

3)minkowshi距离:

4)chebyshev距离:

5)马氏距离:

比如将高三,8班的30个人,根据他们的6科考试成绩来分类

指标和指标之间的距离:

1)相关系数:

2)夹角余弦:

比如根据高三8班的30个人的成绩,将6门课分为2类

类和类之间的距离:

我们记

1)最短距离法:

取两个类中各取一个点得到的最短距离为类间距离

2)重心法:

两个类之间的距离等于两个类的重心的距离

3.合并类：找到距离最近的两个类，将它们合并为一个新类。

4.更新距离矩阵：由于类的合并，需要重新计算新类与其他类之间的距离，更新距离矩阵。

5.判断终止条件：重复步骤 2 - 4，直到所有数据点都合并到一个类中，或者满足某个终止条件（如达到预设的类的数量）

流程图:

最后会变成如下的图:

(类似霍夫曼树)

聚类分析需要注意的问题

1.对于一个实际问题要根据分类的目的来选取指标，指标选取的不同分类结果一般也不同。

2.样品间距离定义方式的不同，聚类结果一般也不同。

3.聚类方法的不同，聚类结果一般也不同(尤其是样品特别多的时候)。最好能通过各种方法找出其中的共性。

4.要注意指标的量纲，量纲差别太大会导致聚类结果不合理。

5.聚类分析的结果可能不令人满意，因为我们所做的是一个数学的处理，对于结果我们要找到一个合理的解释。

类型

凝聚式聚类：从每个数据点作为一个单独的类开始，然后逐步合并相似的类。具体来说，每次迭代时，算法会计算所有类之间的距离，将距离最近的两个类合并为一个新类，这个过程不断重复，直到所有数据点都合并到一个类中，最终形成一棵聚类树。

分裂式聚类：与凝聚式聚类相反，它从所有数据点都属于一个大类开始，然后逐步将大类分裂成更小的类。每次迭代时，算法会选择一个类进行分裂，使得分裂后的两个子类之间的差异尽可能大，直到每个数据点都成为一个单独的类，同样形成一棵聚类树。

(这里讲解的是凝聚式)

下面是spss操作

分析->分类->系统聚类:

如下的选择:

统计可以不用管,图可以如下的选择,帮助我们更加直观的反应一些数据

方法里面可以选择之前的距离计算的方法:

如果量纲有差异就可以进行标准化,这里都是元,可以不进行标准化

保存可以选择K的数量和解的范围

得出的谱系图

那么我们就可以根据这个图来选择这个K的值(可以自己根据图区估计)

也可以根据下面的肘部法则来确定最优的k

各个类畸变程度之和:各个类的畸变程度等于该类重心与其内部成员位置距离的平方和;假设一共将n个样本划分到K个类中(K≤n-1,即至少有一类中有两个元素)

在部分多元统计教材中，J又被称为聚合系数。聚合系数折线图:横坐标为聚类的类别数K，纵坐标为聚合系数J

根据下面的表格来画出肘部图

复制到excel中,插入图表

根据k=5的时候，下降的趋势缓和，K<5畸变程度较大（k==3也可以解释）

下面我们就按照K=3去分类

生成如下的结果：

北京	1
天津	1
河北	2
山西	2
内蒙古	2
辽宁	2
吉林	2
黑龙江	2
上海	3
江苏	2
浙江	1
安徽	2
福建	1
江西	2
山东	2
河南	2
湖南	2
湖北	2
广东	3
广西	2
海南	2
重庆	2
四川	2
贵州	2
云南	2
西藏	1
陕西	2
甘肃	2
青海	2
宁夏	2
新疆	2

补充：

图表的绘制：

图表->图表构建器->加入x和y，根据分出来的类分色，将省份作为标签

优缺点

优点:

不需要预先指定聚类数量：与 K - means 聚类不同，系统聚类不需要事先确定要划分的类的数量，聚类结果的层次结构可以展示不同粒度下的数据分组情况，用户可以根据实际需求和聚类树的结构来选择合适的聚类数量。

聚类结果展示直观：聚类树能够直观地展示数据点之间的亲疏关系和聚类的层次结构，有助于用户理解数据的内在结构和分布特征。

缺点:

计算复杂度高：每次迭代都需要计算所有类之间的距离，随着数据点数量和类数量的增加，计算量会迅速增大，时间复杂度较高，不适合处理大规模数据集。

一旦合并或分裂不可撤销：在凝聚式聚类中，一旦两个类被合并，后续步骤无法撤销这个操作。如果在某个阶段选择了不恰当的合并，可能会导致最终聚类结果不理想。同样，分裂式聚类中一旦类被分裂，也无法恢复。

DBSCAN算法

基于密度的空间聚类算法，它是一种无监督学习算法，主要用于在具有噪声的数据集中发现任意形状的簇，并识别出数据集中的噪声点。

1.原理

核心概念：

邻域:对于数据集中的一个点p，给定半径r，以点p为中心，r为半径的区域内的所有点构成点p的r-邻域，记为 N r(p)。

核心点:如果点p的r-邻域内包含的点数大于或等于某个阈值 MinPts，则点p被称为核心点。核心点意味着在其周围一定范围内有足够多的数据点，表明该区域具有较高的数据密度。

边界点:如果点q在某个核心点p的-邻域内，但点q的r-邻域内的点数小于 MinPts，则点q是边界点。边界点依赖于核心点来确定其所属的簇。

噪声点:既不是核心点也不是边界点的点被认为是噪声点，这些点通常是孤立的，在其周围没有足够的数据点形成有意义的簇。

密度可达:如果存在一条从核心点p到点q的点链，其中链上的每个点都在其前一个点的r-邻域内，且链上的第一个点是核心点，那么称点q从核心点p密度可达。

密度相连:如果存在一个核心点o，使得点p和点q都从点o密度可达，那么称点p和点q密度相连。

聚类原理:DBSCAN 通过检查数据集中每个点的-邻域来确定该点是核心点、边界点还是噪声点。然后基于核心点的密度可达关系将数据点划分为不同的簇，密度相连的数据点构成一个簇。

算法步骤

1，初始化，确定r和MinPts，两个参数的选择对聚类结果有重要影响，通常需要根据数据的特点和经验进行调整。

2，遍历数据集：

对于数据集中的每个点 p:计算点 p的 r - 邻域 Nr(p),

1）如果领域中的点的数量大于MinPts，那么p就是核心点，创建一个新的簇C,并且将p及其密度可达的所有点加入C中。

2）如果领域中的点的数量小于MinPts，则 p不是核心点。如果 p尚未被分配到任何簇中，则将p标记为噪声点。

3,重复聚类：重复步骤2，知道数据点都被处理完毕。

优缺点

优点：

能够发现任意形状的簇：不像 K - means 等算法倾向于发现球形的簇，DBSCAN 可以根据数据点的密度分布发现任意形状的簇，适用于各种复杂的数据分布情况。

对噪声点不敏感：可以直接识别并标记出数据集中的噪声点，而不会将噪声点错误地划分到某个簇中，使得聚类结果更加准确和可靠。

无需预先知道要形成的簇类的数量：与 K - means 等需要预先指定聚类数量的算法不同，DBSCAN 根据数据的密度自动确定簇的数量，减少了用户对聚类数量先验知识的依赖。

缺点：

参数选择困难：r和MinPts 的选择对聚类结果影响很大，但没有通用的方法来确定最优值。不合适的参数可能导致聚类结果不理想，例如将过多的点标记为噪声点，或者将不同的簇合并为一个簇。

计算复杂度较高：在最坏情况下，DBSCAN 的时间复杂度为O(N^2)，其中N是数据点的数量。对于大规模数据集，计算量较大，可能需要较长的运行时间。

不适合高维数据：随着数据维度的增加，数据点之间的距离度量变得不太可靠，密度的概念也变得模糊，导致聚类效果下降。这是因为在高维空间中，数据点趋于稀疏，传统的基于距离的密度定义不再有效，即所谓的 “维度灾难” 问题。