文章目录
- K-Means 一维数据计算示例 数据样本 及 初始值
- K-Means 一维数据 距离计算方式
- K-Means 算法 步骤
- 第一次迭代 : 步骤 ( 1 ) 计算距离
- 第一次迭代 : 步骤 ( 2 ) 聚类分组
- 第一次迭代 : 步骤 ( 3 ) 计算中心值
- 第二次迭代 : 步骤 ( 1 ) 计算距离
- 第二次迭代 : 步骤 ( 2 ) 聚类分组
- 第二次迭代 : 步骤 ( 3 ) 计算中心值
- 第三次迭代 : 步骤 ( 1 ) 计算距离
- 第三次迭代 : 步骤 ( 2 ) 聚类分组
- 第三次迭代 : 步骤 ( 3 ) 计算中心值
- 第四次迭代 : 步骤 ( 1 ) 计算距离
- 第四次迭代 : 步骤 ( 2 ) 聚类分组
K-Means 一维数据计算示例 数据样本 及 初始值
1 . 数据集样本 : 14 14 14 个人 , 根据其年龄 , 将数据集分成 3 3 3 组 ;
2 . 选定初始的中心值 : 1 1 1 , 20 20 20 , 40 40 40 ;
K-Means 一维数据 距离计算方式
1 . 距离公式选择 : 一维数据 直接使用 曼哈顿距离 计算即可 , 二维数据 需要使用 欧几里得距离 计算 ;
2 . 曼哈顿距离 : 这里直接使用曼哈顿距离 , 即样本值 , 直接相减得到的值取绝对值 , 就是曼哈顿距离 ;
K-Means 算法 步骤
K-Means 算法 步骤 : 给定数据集 X X X , 该数据集有 n n n 个样本 , 将其分成 K K K 个聚类 ;
① 中心点初始化 : 为 K K K 个聚类分组选择初始的中心点 , 这些中心点称为 Means ; 可以依据经验 , 也可以随意选择 ;
② 计算距离 : 计算 n n n 个对象与 K K K 个中心点 的距离 ; ( 共计算 n × K n \times K n×K 次 )
③ 聚类分组 : 每个对象与 K K K 个中心点的值已计算出 , 将每个对象分配给距离其最近的中心点对应的聚类 ;
④ 计算中心点 : 根据聚类分组中的样本 , 计算每个聚类的中心点 ;
⑤ 迭代直至收敛 : 迭代执行 ② ③ ④ 步骤 , 直到 聚类算法收敛 , 即 中心点 和 分组 经过多少次迭代都不再改变 , 也就是本次计算的中心点与上一次的中心点一样 ;
第一次迭代 : 步骤 ( 1 ) 计算距离
计算 14 14 14 个样本 与 3 3 3 个中心点的距离 :
① 表格含义 : 如下 P 1 P_1 P1 与 C 1 C_1 C1 对应的表格位置值是 P 1 P_1 P1 样本 与 C 1 C_1 C1 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;
② 计算方式 : 计算 P i P_i Pi 与 C j C_j Cj 之间的距离 , 直接将两个数值相减取平均值即可 ; i i i 取值范围 , { 1 , 2 , ⋯ , 14 } \{1 , 2 , \cdots , 14\} {1,2,⋯,14} , j j j 的取值范围 { 1 , 2 , 3 } \{1 , 2, 3\} {1,2,3} ;
③ 计算示例 : 如 P 3 P_3 P3 样本 与 C 2 C_2 C2 中心点的距离计算 , P 3 P_3 P3 样本的年龄属性值是 5 5 5 , C 2 C_2 C2 中心点值为 20 20 20 ; d ( P 3 , C 2 ) d(P_3, C_2) d(P3,C2) 表示两个点之间的距离 ;
d ( P 3 , C 2 ) = ∣ 5 − 20 ∣ = 15 d(P_3, C_2) = |5 - 20| = 15 d(P3,C2)=∣5−20∣=15
下表中的 P 3 P_3 P3 行 C 2 C_2 C2 列对应的值是 15 15 15 , 即上面计算出来的距离值 ;
年龄 | ||||
---|---|---|---|---|
聚类 | C 1 C_1 C1 | C 2 C_2 C2 | C 3 C_3 C3 | |
中心值 | 1 1 1 | 20 20 20 | 40 40 40 | |
P 1 P_{1} P1 | 1 1 1 | 0 0 0 | 19 19 19 | 39 39 39 |
P 2 P_2 P2 | 3 3 3 | 2 2 2 | 17 17 17 | 37 37 37 |
P 3 P_3 P3 | 5 5 5 | 4 4 4 | 15 15 15 | 35 35 35 |
P 4 P_4 P4 | 8 8 8 | 7 7 7 | 12 12 12 | 32 32 32 |
P 5 P_5 P5 | 9 9 9 | 8 8 8 | 11 11 11 | 31 31 31 |
P 6 P_6 P6 | 11 11 11 | 10 10 10 | 9 9 9 | 29 29 29 |
P 7 P_7 P7 | 12 12 12 | 11 11 11 | 8 8 8 | 28 28 28 |
P 8 P_8 P8 | 13 13 13 | 12 12 12 | 7 7 7 | 27 27 27 |
P 9 P_9 P9 | 37 37 37 | 36 36 36 | 17 17 17 | 3 3 3 |
P 10 P_{10} P10 | 43 43 43 | 42 42 42 | 23 23 23 | 3 3 3 |
P 11 P_{11} P11 | 45 45 45 | 44 44 44 | 25 25 25 | 5 5 5 |
P 12 P_{12} P12 | 49 49 49 | 48 48 48 | 29 29 29 | 9 9 9 |
P 13 P_{13} P13 | 51 51 51 | 50 50 50 | 31 31 31 | 11 11 11 |
P 14 P_{14} P14 | 65 65 65 | 64 64 64 | 45 45 45 | 25 25 25 |
第一次迭代 : 步骤 ( 2 ) 聚类分组
1 . 为 { P 1 , P 2 , ⋯ , P 14 } \{P_1 , P_2, \cdots , P_{14}\} {P1,P2,⋯,P14} 这 14 14 14 个样本分组 :
P 1 P_{1} P1 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 0 0 0 , P 1 P_1 P1 样本 分组到 K 1 K_1 K1 组 ;
P 2 P_{2} P2 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 2 2 2 , P 2 P_2 P2 样本 分组到 K 1 K_1 K1 组 ;
P 3 P_{3} P3 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 4 4 4 , P 3 P_3 P3 样本 分组到 K 1 K_1 K1 组 ;
P 4 P_{4} P4 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 7 7 7 , P 4 P_4 P4 样本 分组到 K 1 K_1 K1 组 ;
P 5 P_{5} P5 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 8 8 8 , P 5 P_5 P5 样本 分组到 K 1 K_1 K1 组 ;
P 6 P_{6} P6 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 9 9 9 , P 6 P_6 P6 样本 分组到 K 2 K_2 K2 组 ;
P 7 P_{7} P7 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 8 8 8 , P 7 P_7 P7 样本 分组到 K 2 K_2 K2 组 ;
P 8 P_{8} P8 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 7 7 7 , P 8 P_8 P8 样本 分组到 K 2 K_2 K2 组 ;
P 9 P_{9} P9 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 9 P_9 P9 样本 分组到 K 3 K_3 K3 组 ;
P 10 P_{10} P10 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 10 P_{10} P10 样本 分组到 K 3 K_3 K3 组 ;
P 11 P_{11} P11 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 5 5 5 , P 11 P_{11} P11 样本 分组到 K 3 K_3 K3 组 ;
P 12 P_{12} P12 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 9 9 9 , P 12 P_{12} P12 样本 分组到 K 3 K_3 K3 组 ;
P 13 P_{13} P13 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 11 11 11 , P 13 P_{13} P13 样本 分组到 K 3 K_3 K3 组 ;
P 14 P_{14} P14 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 25 25 25 , P 14 P_{14} P14 样本 分组到 K 3 K_3 K3 组 ;
2 . 当前分组依据的中心点 : { 1 , 20 , 40 } \{1 , 20 , 40\} {1,20,40}
3 . 当前分组结果 :
K 1 = { P 1 , P 2 , P 3 , P 4 , P 5 } K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \} K1={P1,P2,P3,P4,P5}
K 2 = { P 6 , P 7 , P 8 } K_2 = \{ P_{6} , P_{7} , P_{8} \} K2={P6,P7,P8}
K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14}
第一次迭代 : 步骤 ( 3 ) 计算中心值
根据新的聚类分组计算新的中心值 :
① 计算 K 1 K_1 K1 分组的中心值 : K 1 = { P 1 , P 2 , P 3 , P 4 , P 5 } K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \} K1={P1,P2,P3,P4,P5} , 计算过程如下 :
C 1 = 1 + 3 + 5 + 8 + 9 5 = 5 C_1 = \frac{1 + 3 + 5 + 8 + 9 }{5} = 5 C1=51+3+5+8+9=5
② 计算 K 2 K_2 K2 分组的中心值 : K 2 = { P 6 , P 7 , P 8 } K_2 = \{ P_{6} , P_{7} , P_{8} \} K2={P6,P7,P8} , 计算过程如下 :
C 2 = 11 + 12 + 13 3 = 12 C_2 = \frac{11 + 12 + 13}{3} = 12 C2=311+12+13=12
③ 计算 K 3 K_3 K3 分组的中心值 : K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14} , 计算过程如下 :
C 3 = 37 + 43 + 45 + 49 + 51 + 65 6 = 48 C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48 C3=637+43+45+49+51+65=48
最新计算出的 C 1 , C 2 , C 3 C_1 , C_2 , C_3 C1,C2,C3 中心点是 { 5 , 12 , 48 } \{5 , 12 , 48\} {5,12,48}
第二次迭代 : 步骤 ( 1 ) 计算距离
计算 14 14 14 个样本 与 3 3 3 个中心点的距离 :
① 表格含义 : 如下 P 1 P_1 P1 与 C 1 C_1 C1 对应的表格位置值是 P 1 P_1 P1 样本 与 C 1 C_1 C1 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;
② 计算方式 : 计算 P i P_i Pi 与 C j C_j Cj 之间的距离 , 直接将两个数值相减取平均值即可 ; i i i 取值范围 , { 1 , 2 , ⋯ , 14 } \{1 , 2 , \cdots , 14\} {1,2,⋯,14} , j j j 的取值范围 { 1 , 2 , 3 } \{1 , 2, 3\} {1,2,3} ;
③ 计算示例 : 如 P 3 P_3 P3 样本 与 C 2 C_2 C2 中心点的距离计算 , P 3 P_3 P3 样本的年龄属性值是 5 5 5 , C 2 C_2 C2 中心点值为 12 12 12 ; d ( P 3 , C 2 ) d(P_3, C_2) d(P3,C2) 表示两个点之间的距离 ;
d ( P 3 , C 2 ) = ∣ 5 − 12 ∣ = 7 d(P_3, C_2) = |5 - 12| = 7 d(P3,C2)=∣5−12∣=7
下表中的 P 3 P_3 P3 行 C 2 C_2 C2 列对应的值是 7 7 7 , 即上面计算出来的距离值 ;
年龄 | ||||
---|---|---|---|---|
聚类 | C 1 C_1 C1 | C 2 C_2 C2 | C 3 C_3 C3 | |
中心值 | 5 5 5 | 12 12 12 | 48 48 48 | |
P 1 P_{1} P1 | 1 1 1 | 4 4 4 | 11 11 11 | 47 47 47 |
P 2 P_2 P2 | 3 3 3 | 2 2 2 | 9 9 9 | 45 45 45 |
P 3 P_3 P3 | 5 5 5 | 0 0 0 | 7 7 7 | 43 43 43 |
P 4 P_4 P4 | 8 8 8 | 3 3 3 | 4 4 4 | 40 40 40 |
P 5 P_5 P5 | 9 9 9 | 4 4 4 | 3 3 3 | 39 39 39 |
P 6 P_6 P6 | 11 11 11 | 6 6 6 | 1 1 1 | 37 37 37 |
P 7 P_7 P7 | 12 12 12 | 7 7 7 | 0 0 0 | 36 36 36 |
P 8 P_8 P8 | 13 13 13 | 8 8 8 | 1 1 1 | 35 35 35 |
P 9 P_9 P9 | 37 37 37 | 25 25 25 | 17 17 17 | 11 11 11 |
P 10 P_{10} P10 | 43 43 43 | 38 38 38 | 31 31 31 | 5 5 5 |
P 11 P_{11} P11 | 45 45 45 | 40 40 40 | 33 33 33 | 3 3 3 |
P 12 P_{12} P12 | 49 49 49 | 44 44 44 | 37 37 37 | 1 1 1 |
P 13 P_{13} P13 | 51 51 51 | 46 46 46 | 39 39 39 | 3 3 3 |
P 14 P_{14} P14 | 65 65 65 | 60 60 60 | 53 53 53 | 17 17 17 |
第二次迭代 : 步骤 ( 2 ) 聚类分组
1 . 为 { P 1 , P 2 , ⋯ , P 14 } \{P_1 , P_2, \cdots , P_{14}\} {P1,P2,⋯,P14} 这 14 14 14 个样本分组 :
P 1 P_{1} P1 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 4 4 4 , P 1 P_1 P1 样本 分组到 K 1 K_1 K1 组 ;
P 2 P_{2} P2 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 2 2 2 , P 2 P_2 P2 样本 分组到 K 1 K_1 K1 组 ;
P 3 P_{3} P3 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 0 0 0 , P 3 P_3 P3 样本 分组到 K 1 K_1 K1 组 ;
P 4 P_{4} P4 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 3 3 3 , P 4 P_4 P4 样本 分组到 K 1 K_1 K1 组 ;
P 5 P_{5} P5 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 3 3 3 , P 5 P_5 P5 样本 分组到 K 1 K_1 K1 组 ;
P 6 P_{6} P6 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 1 1 1 , P 6 P_6 P6 样本 分组到 K 2 K_2 K2 组 ;
P 7 P_{7} P7 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 0 0 0 , P 7 P_7 P7 样本 分组到 K 2 K_2 K2 组 ;
P 8 P_{8} P8 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 1 1 1 , P 8 P_8 P8 样本 分组到 K 2 K_2 K2 组 ;
P 9 P_{9} P9 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 11 11 11 , P 9 P_9 P9 样本 分组到 K 3 K_3 K3 组 ;
P 10 P_{10} P10 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 5 5 5 , P 10 P_{10} P10 样本 分组到 K 3 K_3 K3 组 ;
P 11 P_{11} P11 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 11 P_{11} P11 样本 分组到 K 3 K_3 K3 组 ;
P 12 P_{12} P12 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 1 1 1 , P 12 P_{12} P12 样本 分组到 K 3 K_3 K3 组 ;
P 13 P_{13} P13 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 13 P_{13} P13 样本 分组到 K 3 K_3 K3 组 ;
P 14 P_{14} P14 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 17 17 17 , P 14 P_{14} P14 样本 分组到 K 3 K_3 K3 组 ;
2 . 当前分组依据的中心点 : { 5 , 12 , 48 } \{5 , 12 , 48\} {5,12,48}
3 . 当前分组结果 :
K 1 = { P 1 , P 2 , P 3 , P 4 } K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \} K1={P1,P2,P3,P4}
K 2 = { P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \} K2={P5,P6,P7,P8}
K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14}
第二次迭代 : 步骤 ( 3 ) 计算中心值
根据新的聚类分组计算新的中心值 :
① 计算 K 1 K_1 K1 分组的中心值 : K 1 = { P 1 , P 2 , P 3 , P 4 } K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \} K1={P1,P2,P3,P4} , 计算过程如下 :
C 1 = 1 + 3 + 5 + 8 4 = 4 C_1 = \frac{1 + 3 + 5 + 8 }{4} = 4 C1=41+3+5+8=4
② 计算 K 2 K_2 K2 分组的中心值 : K 2 = { P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \} K2={P5,P6,P7,P8}, 计算过程如下 :
C 2 = 9 + 11 + 12 + 13 4 = 11 C_2 = \frac{9 + 11 + 12 + 13}{4} = 11 C2=49+11+12+13=11
③ 计算 K 3 K_3 K3 分组的中心值 : K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14} , 计算过程如下 : ( 与上次对比没有变化 )
C 3 = 37 + 43 + 45 + 49 + 51 + 65 6 = 48 C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48 C3=637+43+45+49+51+65=48
最新计算出的 C 1 , C 2 , C 3 C_1 , C_2 , C_3 C1,C2,C3 中心点是 { 4 , 11 , 48 } \{4 , 11 , 48\} {4,11,48}
第三次迭代 : 步骤 ( 1 ) 计算距离
计算 14 14 14 个样本 与 3 3 3 个中心点的距离 :
① 表格含义 : 如下 P 1 P_1 P1 与 C 1 C_1 C1 对应的表格位置值是 P 1 P_1 P1 样本 与 C 1 C_1 C1 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;
② 计算方式 : 计算 P i P_i Pi 与 C j C_j Cj 之间的距离 , 直接将两个数值相减取平均值即可 ; i i i 取值范围 , { 1 , 2 , ⋯ , 14 } \{1 , 2 , \cdots , 14\} {1,2,⋯,14} , j j j 的取值范围 { 1 , 2 , 3 } \{1 , 2, 3\} {1,2,3} ;
③ 计算示例 : 如 P 3 P_3 P3 样本 与 C 2 C_2 C2 中心点的距离计算 , P 3 P_3 P3 样本的年龄属性值是 5 5 5 , C 2 C_2 C2 中心点值为 11 11 11 ; d ( P 3 , C 2 ) d(P_3, C_2) d(P3,C2) 表示两个点之间的距离 ;
d ( P 3 , C 2 ) = ∣ 5 − 11 ∣ = 6 d(P_3, C_2) = |5 - 11| = 6 d(P3,C2)=∣5−11∣=6
下表中的 P 3 P_3 P3 行 C 2 C_2 C2 列对应的值是 6 6 6 , 即上面计算出来的距离值 ;
年龄 | ||||
---|---|---|---|---|
聚类 | C 1 C_1 C1 | C 2 C_2 C2 | C 3 C_3 C3 | |
中心值 | 4 4 4 | 11 11 11 | 48 48 48 | |
P 1 P_{1} P1 | 1 1 1 | 3 3 3 | 10 10 10 | 47 47 47 |
P 2 P_2 P2 | 3 3 3 | 1 1 1 | 8 8 8 | 45 45 45 |
P 3 P_3 P3 | 5 5 5 | 1 1 1 | 6 6 6 | 43 43 43 |
P 4 P_4 P4 | 8 8 8 | 4 4 4 | 3 3 3 | 40 40 40 |
P 5 P_5 P5 | 9 9 9 | 5 5 5 | 2 2 2 | 39 39 39 |
P 6 P_6 P6 | 11 11 11 | 7 7 7 | 0 0 0 | 37 37 37 |
P 7 P_7 P7 | 12 12 12 | 8 8 8 | 1 1 1 | 36 36 36 |
P 8 P_8 P8 | 13 13 13 | 9 9 9 | 2 2 2 | 35 35 35 |
P 9 P_9 P9 | 37 37 37 | 33 33 33 | 26 26 26 | 11 11 11 |
P 10 P_{10} P10 | 43 43 43 | 39 39 39 | 32 32 32 | 5 5 5 |
P 11 P_{11} P11 | 45 45 45 | 41 41 41 | 34 34 34 | 3 3 3 |
P 12 P_{12} P12 | 49 49 49 | 45 45 45 | 38 38 38 | 1 1 1 |
P 13 P_{13} P13 | 51 51 51 | 47 47 47 | 40 40 40 | 3 3 3 |
P 14 P_{14} P14 | 65 65 65 | 61 61 61 | 54 54 54 | 17 17 17 |
第三次迭代 : 步骤 ( 2 ) 聚类分组
1 . 为 { P 1 , P 2 , ⋯ , P 14 } \{P_1 , P_2, \cdots , P_{14}\} {P1,P2,⋯,P14} 这 14 14 14 个样本分组 :
P 1 P_{1} P1 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 3 3 3 , P 1 P_1 P1 样本 分组到 K 1 K_1 K1 组 ;
P 2 P_{2} P2 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 1 1 1 , P 2 P_2 P2 样本 分组到 K 1 K_1 K1 组 ;
P 3 P_{3} P3 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 1 1 1 , P 3 P_3 P3 样本 分组到 K 1 K_1 K1 组 ;
P 4 P_{4} P4 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 3 3 3 , P 4 P_4 P4 样本 分组到 K 1 K_1 K1 组 ;
P 5 P_{5} P5 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 2 2 2 , P 5 P_5 P5 样本 分组到 K 1 K_1 K1 组 ;
P 6 P_{6} P6 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 0 0 0 , P 6 P_6 P6 样本 分组到 K 2 K_2 K2 组 ;
P 7 P_{7} P7 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 1 1 1 , P 7 P_7 P7 样本 分组到 K 2 K_2 K2 组 ;
P 8 P_{8} P8 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 2 2 2 , P 8 P_8 P8 样本 分组到 K 2 K_2 K2 组 ;
P 9 P_{9} P9 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 11 11 11 , P 9 P_9 P9 样本 分组到 K 3 K_3 K3 组 ;
P 10 P_{10} P10 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 5 5 5 , P 10 P_{10} P10 样本 分组到 K 3 K_3 K3 组 ;
P 11 P_{11} P11 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 11 P_{11} P11 样本 分组到 K 3 K_3 K3 组 ;
P 12 P_{12} P12 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 1 1 1 , P 12 P_{12} P12 样本 分组到 K 3 K_3 K3 组 ;
P 13 P_{13} P13 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 13 P_{13} P13 样本 分组到 K 3 K_3 K3 组 ;
P 14 P_{14} P14 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 17 17 17 , P 14 P_{14} P14 样本 分组到 K 3 K_3 K3 组 ;
2 . 当前分组依据的中心点 : { 4 , 11 , 48 } \{4 , 11 , 48\} {4,11,48}
3 . 当前分组结果 :
K 1 = { P 1 , P 2 , P 3 } K_1 = \{ P_{1} , P_{2} , P_{3} \} K1={P1,P2,P3}
K 2 = { P 4 , P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \} K2={P4,P5,P6,P7,P8}
K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14}
第三次迭代 : 步骤 ( 3 ) 计算中心值
根据新的聚类分组计算新的中心值 :
① 计算 K 1 K_1 K1 分组的中心值 : K 1 = { P 1 , P 2 , P 3 } K_1 = \{ P_{1} , P_{2} , P_{3} \} K1={P1,P2,P3} , 计算过程如下 :
C 1 = 1 + 3 + 5 3 = 3 C_1 = \frac{1 + 3 + 5 }{3} = 3 C1=31+3+5=3
② 计算 K 2 K_2 K2 分组的中心值 : K 2 = { P 4 , P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \} K2={P4,P5,P6,P7,P8}, 计算过程如下 :
C 2 = 8 + 9 + 11 + 12 + 13 5 = 10 C_2 = \frac{8 + 9 + 11 + 12 + 13}{5} = 10 C2=58+9+11+12+13=10
③ 计算 K 3 K_3 K3 分组的中心值 : K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14} , 计算过程如下 : ( 与上次对比没有变化 )
C 3 = 37 + 43 + 45 + 49 + 51 + 65 6 = 48 C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48 C3=637+43+45+49+51+65=48
最新计算出的 C 1 , C 2 , C 3 C_1 , C_2 , C_3 C1,C2,C3 中心点是 { 3 , 10 , 48 } \{3 , 10 , 48\} {3,10,48}
第四次迭代 : 步骤 ( 1 ) 计算距离
计算 14 14 14 个样本 与 3 3 3 个中心点的距离 :
① 表格含义 : 如下 P 1 P_1 P1 与 C 1 C_1 C1 对应的表格位置值是 P 1 P_1 P1 样本 与 C 1 C_1 C1 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;
② 计算方式 : 计算 P i P_i Pi 与 C j C_j Cj 之间的距离 , 直接将两个数值相减取平均值即可 ; i i i 取值范围 , { 1 , 2 , ⋯ , 14 } \{1 , 2 , \cdots , 14\} {1,2,⋯,14} , j j j 的取值范围 { 1 , 2 , 3 } \{1 , 2, 3\} {1,2,3} ;
③ 计算示例 : 如 P 3 P_3 P3 样本 与 C 2 C_2 C2 中心点的距离计算 , P 3 P_3 P3 样本的年龄属性值是 5 5 5 , C 2 C_2 C2 中心点值为 10 10 10 ; d ( P 3 , C 2 ) d(P_3, C_2) d(P3,C2) 表示两个点之间的距离 ;
d ( P 2 , C 3 ) = ∣ 5 − 10 ∣ = 5 d(P_2, C_3) = |5 - 10| = 5 d(P2,C3)=∣5−10∣=5
下表中的 P 3 P_3 P3 行 C 2 C_2 C2 列对应的值是 5 5 5 , 即上面计算出来的距离值 ;
年龄 | ||||
---|---|---|---|---|
聚类 | C 1 C_1 C1 | C 2 C_2 C2 | C 3 C_3 C3 | |
中心值 | 3 3 3 | 10 10 10 | 48 48 48 | |
P 1 P_{1} P1 | 1 1 1 | 2 2 2 | 9 9 9 | 47 47 47 |
P 2 P_2 P2 | 3 3 3 | 0 0 0 | 7 7 7 | 45 45 45 |
P 3 P_3 P3 | 5 5 5 | 2 2 2 | 5 5 5 | 43 43 43 |
P 4 P_4 P4 | 8 8 8 | 5 5 5 | 2 2 2 | 40 40 40 |
P 5 P_5 P5 | 9 9 9 | 6 6 6 | 1 1 1 | 39 39 39 |
P 6 P_6 P6 | 11 11 11 | 8 8 8 | 1 1 1 | 37 37 37 |
P 7 P_7 P7 | 12 12 12 | 9 9 9 | 2 2 2 | 36 36 36 |
P 8 P_8 P8 | 13 13 13 | 10 10 10 | 3 3 3 | 35 35 35 |
P 9 P_9 P9 | 37 37 37 | 34 34 34 | 27 27 27 | 11 11 11 |
P 10 P_{10} P10 | 43 43 43 | 40 40 40 | 33 33 33 | 5 5 5 |
P 11 P_{11} P11 | 45 45 45 | 42 42 42 | 35 35 35 | 3 3 3 |
P 12 P_{12} P12 | 49 49 49 | 46 46 46 | 39 39 39 | 1 1 1 |
P 13 P_{13} P13 | 51 51 51 | 48 48 48 | 41 41 41 | 3 3 3 |
P 14 P_{14} P14 | 65 65 65 | 62 62 62 | 55 55 55 | 17 17 17 |
第四次迭代 : 步骤 ( 2 ) 聚类分组
1 . 为 { P 1 , P 2 , ⋯ , P 14 } \{P_1 , P_2, \cdots , P_{14}\} {P1,P2,⋯,P14} 这 14 14 14 个样本分组 :
P 1 P_{1} P1 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 2 2 2 , P 1 P_1 P1 样本 分组到 K 1 K_1 K1 组 ;
P 2 P_{2} P2 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 0 0 0 , P 2 P_2 P2 样本 分组到 K 1 K_1 K1 组 ;
P 3 P_{3} P3 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 2 2 2 , P 3 P_3 P3 样本 分组到 K 1 K_1 K1 组 ;
P 4 P_{4} P4 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 2 2 2 , P 4 P_4 P4 样本 分组到 K 1 K_1 K1 组 ;
P 5 P_{5} P5 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 1 1 1 , P 5 P_5 P5 样本 分组到 K 1 K_1 K1 组 ;
P 6 P_{6} P6 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 1 1 1 , P 6 P_6 P6 样本 分组到 K 2 K_2 K2 组 ;
P 7 P_{7} P7 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 2 2 2 , P 7 P_7 P7 样本 分组到 K 2 K_2 K2 组 ;
P 8 P_{8} P8 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 3 3 3 , P 8 P_8 P8 样本 分组到 K 2 K_2 K2 组 ;
P 9 P_{9} P9 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 11 11 11 , P 9 P_9 P9 样本 分组到 K 3 K_3 K3 组 ;
P 10 P_{10} P10 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 5 5 5 , P 10 P_{10} P10 样本 分组到 K 3 K_3 K3 组 ;
P 11 P_{11} P11 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 11 P_{11} P11 样本 分组到 K 3 K_3 K3 组 ;
P 12 P_{12} P12 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 1 1 1 , P 12 P_{12} P12 样本 分组到 K 3 K_3 K3 组 ;
P 13 P_{13} P13 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 13 P_{13} P13 样本 分组到 K 3 K_3 K3 组 ;
P 14 P_{14} P14 与 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 17 17 17 , P 14 P_{14} P14 样本 分组到 K 3 K_3 K3 组 ;
2 . 当前分组依据的中心点 : { 3 , 10 , 48 } \{3 , 10 , 48\} {3,10,48}
3 . 当前分组结果 :
K 1 = { P 1 , P 2 , P 3 } K_1 = \{ P_{1} , P_{2} , P_{3} \} K1={P1,P2,P3}
K 2 = { P 4 , P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \} K2={P4,P5,P6,P7,P8}
K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14}
本次分组与上一次分组没有变化 , 说明聚类算法已经收敛 , 该结果就是聚类最终结果 ;