【数据挖掘】K-Means 一维数据聚类分析示例

news/2024/11/29 7:49:39/

文章目录

        • K-Means 一维数据计算示例 数据样本 及 初始值
        • K-Means 一维数据 距离计算方式
        • K-Means 算法 步骤
        • 第一次迭代 : 步骤 ( 1 ) 计算距离
        • 第一次迭代 : 步骤 ( 2 ) 聚类分组
        • 第一次迭代 : 步骤 ( 3 ) 计算中心值
        • 第二次迭代 : 步骤 ( 1 ) 计算距离
        • 第二次迭代 : 步骤 ( 2 ) 聚类分组
        • 第二次迭代 : 步骤 ( 3 ) 计算中心值
        • 第三次迭代 : 步骤 ( 1 ) 计算距离
        • 第三次迭代 : 步骤 ( 2 ) 聚类分组
        • 第三次迭代 : 步骤 ( 3 ) 计算中心值
        • 第四次迭代 : 步骤 ( 1 ) 计算距离
        • 第四次迭代 : 步骤 ( 2 ) 聚类分组



K-Means 一维数据计算示例 数据样本 及 初始值



1 . 数据集样本 : 14 14 14 个人 , 根据其年龄 , 将数据集分成 3 3 3 组 ;


2 . 选定初始的中心值 : 1 1 1 , 20 20 20 , 40 40 40 ;



K-Means 一维数据 距离计算方式



1 . 距离公式选择 : 一维数据 直接使用 曼哈顿距离 计算即可 , 二维数据 需要使用 欧几里得距离 计算 ;


2 . 曼哈顿距离 : 这里直接使用曼哈顿距离 , 即样本值 , 直接相减得到的值取绝对值 , 就是曼哈顿距离 ;



K-Means 算法 步骤



K-Means 算法 步骤 : 给定数据集 X X X , 该数据集有 n n n 个样本 , 将其分成 K K K 个聚类 ;


① 中心点初始化 : K K K 个聚类分组选择初始的中心点 , 这些中心点称为 Means ; 可以依据经验 , 也可以随意选择 ;

② 计算距离 : 计算 n n n 个对象与 K K K 个中心点 的距离 ; ( 共计算 n × K n \times K n×K 次 )

③ 聚类分组 : 每个对象与 K K K 个中心点的值已计算出 , 将每个对象分配给距离其最近的中心点对应的聚类 ;

④ 计算中心点 : 根据聚类分组中的样本 , 计算每个聚类的中心点 ;

⑤ 迭代直至收敛 : 迭代执行 ② ③ ④ 步骤 , 直到 聚类算法收敛 , 即 中心点 和 分组 经过多少次迭代都不再改变 , 也就是本次计算的中心点与上一次的中心点一样 ;



第一次迭代 : 步骤 ( 1 ) 计算距离



计算 14 14 14 个样本 与 3 3 3 个中心点的距离 :


① 表格含义 : 如下 P 1 P_1 P1 C 1 C_1 C1 对应的表格位置值是 P 1 P_1 P1 样本 与 C 1 C_1 C1 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;

② 计算方式 : 计算 P i P_i Pi C j C_j Cj 之间的距离 , 直接将两个数值相减取平均值即可 ; i i i 取值范围 , { 1 , 2 , ⋯ , 14 } \{1 , 2 , \cdots , 14\} {1,2,,14} , j j j 的取值范围 { 1 , 2 , 3 } \{1 , 2, 3\} {1,2,3} ;

③ 计算示例 : P 3 P_3 P3 样本 与 C 2 C_2 C2 中心点的距离计算 , P 3 P_3 P3 样本的年龄属性值是 5 5 5 , C 2 C_2 C2 中心点值为 20 20 20 ; d ( P 3 , C 2 ) d(P_3, C_2) d(P3,C2) 表示两个点之间的距离 ;


d ( P 3 , C 2 ) = ∣ 5 − 20 ∣ = 15 d(P_3, C_2) = |5 - 20| = 15 d(P3,C2)=520=15


下表中的 P 3 P_3 P3 C 2 C_2 C2 列对应的值是 15 15 15 , 即上面计算出来的距离值 ;


年龄
聚类 C 1 C_1 C1 C 2 C_2 C2 C 3 C_3 C3
中心值 1 1 1 20 20 20 40 40 40
P 1 P_{1} P1 1 1 1 0 0 0 19 19 19 39 39 39
P 2 P_2 P2 3 3 3 2 2 2 17 17 17 37 37 37
P 3 P_3 P3 5 5 5 4 4 4 15 15 15 35 35 35
P 4 P_4 P4 8 8 8 7 7 7 12 12 12 32 32 32
P 5 P_5 P5 9 9 9 8 8 8 11 11 11 31 31 31
P 6 P_6 P6 11 11 11 10 10 10 9 9 9 29 29 29
P 7 P_7 P7 12 12 12 11 11 11 8 8 8 28 28 28
P 8 P_8 P8 13 13 13 12 12 12 7 7 7 27 27 27
P 9 P_9 P9 37 37 37 36 36 36 17 17 17 3 3 3
P 10 P_{10} P10 43 43 43 42 42 42 23 23 23 3 3 3
P 11 P_{11} P11 45 45 45 44 44 44 25 25 25 5 5 5
P 12 P_{12} P12 49 49 49 48 48 48 29 29 29 9 9 9
P 13 P_{13} P13 51 51 51 50 50 50 31 31 31 11 11 11
P 14 P_{14} P14 65 65 65 64 64 64 45 45 45 25 25 25


第一次迭代 : 步骤 ( 2 ) 聚类分组



1 . 为 { P 1 , P 2 , ⋯ , P 14 } \{P_1 , P_2, \cdots , P_{14}\} {P1,P2,,P14} 14 14 14 个样本分组 :


P 1 P_{1} P1 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 0 0 0 , P 1 P_1 P1 样本 分组到 K 1 K_1 K1 组 ;
P 2 P_{2} P2 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 2 2 2 , P 2 P_2 P2 样本 分组到 K 1 K_1 K1 组 ;
P 3 P_{3} P3 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 4 4 4 , P 3 P_3 P3 样本 分组到 K 1 K_1 K1 组 ;
P 4 P_{4} P4 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 7 7 7 , P 4 P_4 P4 样本 分组到 K 1 K_1 K1 组 ;
P 5 P_{5} P5 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 8 8 8 , P 5 P_5 P5 样本 分组到 K 1 K_1 K1 组 ;

P 6 P_{6} P6 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 9 9 9 , P 6 P_6 P6 样本 分组到 K 2 K_2 K2 组 ;
P 7 P_{7} P7 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 8 8 8 , P 7 P_7 P7 样本 分组到 K 2 K_2 K2 组 ;
P 8 P_{8} P8 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 7 7 7 , P 8 P_8 P8 样本 分组到 K 2 K_2 K2 组 ;

P 9 P_{9} P9 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 9 P_9 P9 样本 分组到 K 3 K_3 K3 组 ;
P 10 P_{10} P10 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 10 P_{10} P10 样本 分组到 K 3 K_3 K3 组 ;
P 11 P_{11} P11 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 5 5 5 , P 11 P_{11} P11 样本 分组到 K 3 K_3 K3 组 ;
P 12 P_{12} P12 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 9 9 9 , P 12 P_{12} P12 样本 分组到 K 3 K_3 K3 组 ;
P 13 P_{13} P13 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 11 11 11 , P 13 P_{13} P13 样本 分组到 K 3 K_3 K3 组 ;
P 14 P_{14} P14 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 25 25 25 , P 14 P_{14} P14 样本 分组到 K 3 K_3 K3 组 ;


2 . 当前分组依据的中心点 : { 1 , 20 , 40 } \{1 , 20 , 40\} {1,20,40}


3 . 当前分组结果 :


K 1 = { P 1 , P 2 , P 3 , P 4 , P 5 } K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \} K1={P1,P2,P3,P4,P5}

K 2 = { P 6 , P 7 , P 8 } K_2 = \{ P_{6} , P_{7} , P_{8} \} K2={P6,P7,P8}

K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14}



第一次迭代 : 步骤 ( 3 ) 计算中心值



根据新的聚类分组计算新的中心值 :


① 计算 K 1 K_1 K1 分组的中心值 : K 1 = { P 1 , P 2 , P 3 , P 4 , P 5 } K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} , P_{5} \} K1={P1,P2,P3,P4,P5} , 计算过程如下 :


C 1 = 1 + 3 + 5 + 8 + 9 5 = 5 C_1 = \frac{1 + 3 + 5 + 8 + 9 }{5} = 5 C1=51+3+5+8+9=5


② 计算 K 2 K_2 K2 分组的中心值 : K 2 = { P 6 , P 7 , P 8 } K_2 = \{ P_{6} , P_{7} , P_{8} \} K2={P6,P7,P8} , 计算过程如下 :


C 2 = 11 + 12 + 13 3 = 12 C_2 = \frac{11 + 12 + 13}{3} = 12 C2=311+12+13=12


③ 计算 K 3 K_3 K3 分组的中心值 : K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14} , 计算过程如下 :


C 3 = 37 + 43 + 45 + 49 + 51 + 65 6 = 48 C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48 C3=637+43+45+49+51+65=48



最新计算出的 C 1 , C 2 , C 3 C_1 , C_2 , C_3 C1,C2,C3 中心点是 { 5 , 12 , 48 } \{5 , 12 , 48\} {5,12,48}



第二次迭代 : 步骤 ( 1 ) 计算距离



计算 14 14 14 个样本 与 3 3 3 个中心点的距离 :


① 表格含义 : 如下 P 1 P_1 P1 C 1 C_1 C1 对应的表格位置值是 P 1 P_1 P1 样本 与 C 1 C_1 C1 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;

② 计算方式 : 计算 P i P_i Pi C j C_j Cj 之间的距离 , 直接将两个数值相减取平均值即可 ; i i i 取值范围 , { 1 , 2 , ⋯ , 14 } \{1 , 2 , \cdots , 14\} {1,2,,14} , j j j 的取值范围 { 1 , 2 , 3 } \{1 , 2, 3\} {1,2,3} ;

③ 计算示例 : P 3 P_3 P3 样本 与 C 2 C_2 C2 中心点的距离计算 , P 3 P_3 P3 样本的年龄属性值是 5 5 5 , C 2 C_2 C2 中心点值为 12 12 12 ; d ( P 3 , C 2 ) d(P_3, C_2) d(P3,C2) 表示两个点之间的距离 ;


d ( P 3 , C 2 ) = ∣ 5 − 12 ∣ = 7 d(P_3, C_2) = |5 - 12| = 7 d(P3,C2)=512=7


下表中的 P 3 P_3 P3 C 2 C_2 C2 列对应的值是 7 7 7 , 即上面计算出来的距离值 ;


年龄
聚类 C 1 C_1 C1 C 2 C_2 C2 C 3 C_3 C3
中心值 5 5 5 12 12 12 48 48 48
P 1 P_{1} P1 1 1 1 4 4 4 11 11 11 47 47 47
P 2 P_2 P2 3 3 3 2 2 2 9 9 9 45 45 45
P 3 P_3 P3 5 5 5 0 0 0 7 7 7 43 43 43
P 4 P_4 P4 8 8 8 3 3 3 4 4 4 40 40 40
P 5 P_5 P5 9 9 9 4 4 4 3 3 3 39 39 39
P 6 P_6 P6 11 11 11 6 6 6 1 1 1 37 37 37
P 7 P_7 P7 12 12 12 7 7 7 0 0 0 36 36 36
P 8 P_8 P8 13 13 13 8 8 8 1 1 1 35 35 35
P 9 P_9 P9 37 37 37 25 25 25 17 17 17 11 11 11
P 10 P_{10} P10 43 43 43 38 38 38 31 31 31 5 5 5
P 11 P_{11} P11 45 45 45 40 40 40 33 33 33 3 3 3
P 12 P_{12} P12 49 49 49 44 44 44 37 37 37 1 1 1
P 13 P_{13} P13 51 51 51 46 46 46 39 39 39 3 3 3
P 14 P_{14} P14 65 65 65 60 60 60 53 53 53 17 17 17


第二次迭代 : 步骤 ( 2 ) 聚类分组



1 . 为 { P 1 , P 2 , ⋯ , P 14 } \{P_1 , P_2, \cdots , P_{14}\} {P1,P2,,P14} 14 14 14 个样本分组 :


P 1 P_{1} P1 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 4 4 4 , P 1 P_1 P1 样本 分组到 K 1 K_1 K1 组 ;
P 2 P_{2} P2 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 2 2 2 , P 2 P_2 P2 样本 分组到 K 1 K_1 K1 组 ;
P 3 P_{3} P3 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 0 0 0 , P 3 P_3 P3 样本 分组到 K 1 K_1 K1 组 ;
P 4 P_{4} P4 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 3 3 3 , P 4 P_4 P4 样本 分组到 K 1 K_1 K1 组 ;

P 5 P_{5} P5 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 3 3 3 , P 5 P_5 P5 样本 分组到 K 1 K_1 K1 组 ;
P 6 P_{6} P6 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 1 1 1 , P 6 P_6 P6 样本 分组到 K 2 K_2 K2 组 ;
P 7 P_{7} P7 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 0 0 0 , P 7 P_7 P7 样本 分组到 K 2 K_2 K2 组 ;
P 8 P_{8} P8 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 1 1 1 , P 8 P_8 P8 样本 分组到 K 2 K_2 K2 组 ;

P 9 P_{9} P9 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 11 11 11 , P 9 P_9 P9 样本 分组到 K 3 K_3 K3 组 ;
P 10 P_{10} P10 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 5 5 5 , P 10 P_{10} P10 样本 分组到 K 3 K_3 K3 组 ;
P 11 P_{11} P11 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 11 P_{11} P11 样本 分组到 K 3 K_3 K3 组 ;
P 12 P_{12} P12 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 1 1 1 , P 12 P_{12} P12 样本 分组到 K 3 K_3 K3 组 ;
P 13 P_{13} P13 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 13 P_{13} P13 样本 分组到 K 3 K_3 K3 组 ;
P 14 P_{14} P14 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 17 17 17 , P 14 P_{14} P14 样本 分组到 K 3 K_3 K3 组 ;


2 . 当前分组依据的中心点 : { 5 , 12 , 48 } \{5 , 12 , 48\} {5,12,48}


3 . 当前分组结果 :


K 1 = { P 1 , P 2 , P 3 , P 4 } K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \} K1={P1,P2,P3,P4}

K 2 = { P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \} K2={P5,P6,P7,P8}

K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14}



第二次迭代 : 步骤 ( 3 ) 计算中心值



根据新的聚类分组计算新的中心值 :


① 计算 K 1 K_1 K1 分组的中心值 : K 1 = { P 1 , P 2 , P 3 , P 4 } K_1 = \{ P_{1} , P_{2} , P_{3} , P_{4} \} K1={P1,P2,P3,P4} , 计算过程如下 :


C 1 = 1 + 3 + 5 + 8 4 = 4 C_1 = \frac{1 + 3 + 5 + 8 }{4} = 4 C1=41+3+5+8=4


② 计算 K 2 K_2 K2 分组的中心值 : K 2 = { P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{5} , P_{6} , P_{7} , P_{8} \} K2={P5,P6,P7,P8}, 计算过程如下 :


C 2 = 9 + 11 + 12 + 13 4 = 11 C_2 = \frac{9 + 11 + 12 + 13}{4} = 11 C2=49+11+12+13=11


③ 计算 K 3 K_3 K3 分组的中心值 : K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14} , 计算过程如下 : ( 与上次对比没有变化 )


C 3 = 37 + 43 + 45 + 49 + 51 + 65 6 = 48 C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48 C3=637+43+45+49+51+65=48


最新计算出的 C 1 , C 2 , C 3 C_1 , C_2 , C_3 C1,C2,C3 中心点是 { 4 , 11 , 48 } \{4 , 11 , 48\} {4,11,48}



第三次迭代 : 步骤 ( 1 ) 计算距离



计算 14 14 14 个样本 与 3 3 3 个中心点的距离 :


① 表格含义 : 如下 P 1 P_1 P1 C 1 C_1 C1 对应的表格位置值是 P 1 P_1 P1 样本 与 C 1 C_1 C1 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;

② 计算方式 : 计算 P i P_i Pi C j C_j Cj 之间的距离 , 直接将两个数值相减取平均值即可 ; i i i 取值范围 , { 1 , 2 , ⋯ , 14 } \{1 , 2 , \cdots , 14\} {1,2,,14} , j j j 的取值范围 { 1 , 2 , 3 } \{1 , 2, 3\} {1,2,3} ;

③ 计算示例 : P 3 P_3 P3 样本 与 C 2 C_2 C2 中心点的距离计算 , P 3 P_3 P3 样本的年龄属性值是 5 5 5 , C 2 C_2 C2 中心点值为 11 11 11 ; d ( P 3 , C 2 ) d(P_3, C_2) d(P3,C2) 表示两个点之间的距离 ;


d ( P 3 , C 2 ) = ∣ 5 − 11 ∣ = 6 d(P_3, C_2) = |5 - 11| = 6 d(P3,C2)=511=6


下表中的 P 3 P_3 P3 C 2 C_2 C2 列对应的值是 6 6 6 , 即上面计算出来的距离值 ;


年龄
聚类 C 1 C_1 C1 C 2 C_2 C2 C 3 C_3 C3
中心值 4 4 4 11 11 11 48 48 48
P 1 P_{1} P1 1 1 1 3 3 3 10 10 10 47 47 47
P 2 P_2 P2 3 3 3 1 1 1 8 8 8 45 45 45
P 3 P_3 P3 5 5 5 1 1 1 6 6 6 43 43 43
P 4 P_4 P4 8 8 8 4 4 4 3 3 3 40 40 40
P 5 P_5 P5 9 9 9 5 5 5 2 2 2 39 39 39
P 6 P_6 P6 11 11 11 7 7 7 0 0 0 37 37 37
P 7 P_7 P7 12 12 12 8 8 8 1 1 1 36 36 36
P 8 P_8 P8 13 13 13 9 9 9 2 2 2 35 35 35
P 9 P_9 P9 37 37 37 33 33 33 26 26 26 11 11 11
P 10 P_{10} P10 43 43 43 39 39 39 32 32 32 5 5 5
P 11 P_{11} P11 45 45 45 41 41 41 34 34 34 3 3 3
P 12 P_{12} P12 49 49 49 45 45 45 38 38 38 1 1 1
P 13 P_{13} P13 51 51 51 47 47 47 40 40 40 3 3 3
P 14 P_{14} P14 65 65 65 61 61 61 54 54 54 17 17 17


第三次迭代 : 步骤 ( 2 ) 聚类分组



1 . 为 { P 1 , P 2 , ⋯ , P 14 } \{P_1 , P_2, \cdots , P_{14}\} {P1,P2,,P14} 14 14 14 个样本分组 :


P 1 P_{1} P1 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 3 3 3 , P 1 P_1 P1 样本 分组到 K 1 K_1 K1 组 ;
P 2 P_{2} P2 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 1 1 1 , P 2 P_2 P2 样本 分组到 K 1 K_1 K1 组 ;
P 3 P_{3} P3 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 1 1 1 , P 3 P_3 P3 样本 分组到 K 1 K_1 K1 组 ;

P 4 P_{4} P4 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 3 3 3 , P 4 P_4 P4 样本 分组到 K 1 K_1 K1 组 ;
P 5 P_{5} P5 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 2 2 2 , P 5 P_5 P5 样本 分组到 K 1 K_1 K1 组 ;
P 6 P_{6} P6 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 0 0 0 , P 6 P_6 P6 样本 分组到 K 2 K_2 K2 组 ;
P 7 P_{7} P7 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 1 1 1 , P 7 P_7 P7 样本 分组到 K 2 K_2 K2 组 ;
P 8 P_{8} P8 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 2 2 2 , P 8 P_8 P8 样本 分组到 K 2 K_2 K2 组 ;

P 9 P_{9} P9 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 11 11 11 , P 9 P_9 P9 样本 分组到 K 3 K_3 K3 组 ;
P 10 P_{10} P10 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 5 5 5 , P 10 P_{10} P10 样本 分组到 K 3 K_3 K3 组 ;
P 11 P_{11} P11 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 11 P_{11} P11 样本 分组到 K 3 K_3 K3 组 ;
P 12 P_{12} P12 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 1 1 1 , P 12 P_{12} P12 样本 分组到 K 3 K_3 K3 组 ;
P 13 P_{13} P13 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 13 P_{13} P13 样本 分组到 K 3 K_3 K3 组 ;
P 14 P_{14} P14 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 17 17 17 , P 14 P_{14} P14 样本 分组到 K 3 K_3 K3 组 ;


2 . 当前分组依据的中心点 : { 4 , 11 , 48 } \{4 , 11 , 48\} {4,11,48}


3 . 当前分组结果 :


K 1 = { P 1 , P 2 , P 3 } K_1 = \{ P_{1} , P_{2} , P_{3} \} K1={P1,P2,P3}

K 2 = { P 4 , P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \} K2={P4,P5,P6,P7,P8}

K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14}



第三次迭代 : 步骤 ( 3 ) 计算中心值



根据新的聚类分组计算新的中心值 :


① 计算 K 1 K_1 K1 分组的中心值 : K 1 = { P 1 , P 2 , P 3 } K_1 = \{ P_{1} , P_{2} , P_{3} \} K1={P1,P2,P3} , 计算过程如下 :


C 1 = 1 + 3 + 5 3 = 3 C_1 = \frac{1 + 3 + 5 }{3} = 3 C1=31+3+5=3


② 计算 K 2 K_2 K2 分组的中心值 : K 2 = { P 4 , P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \} K2={P4,P5,P6,P7,P8}, 计算过程如下 :


C 2 = 8 + 9 + 11 + 12 + 13 5 = 10 C_2 = \frac{8 + 9 + 11 + 12 + 13}{5} = 10 C2=58+9+11+12+13=10


③ 计算 K 3 K_3 K3 分组的中心值 : K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14} , 计算过程如下 : ( 与上次对比没有变化 )


C 3 = 37 + 43 + 45 + 49 + 51 + 65 6 = 48 C_3 = \frac{37 + 43 + 45 + 49 + 51 + 65}{6} = 48 C3=637+43+45+49+51+65=48


最新计算出的 C 1 , C 2 , C 3 C_1 , C_2 , C_3 C1,C2,C3 中心点是 { 3 , 10 , 48 } \{3 , 10 , 48\} {3,10,48}



第四次迭代 : 步骤 ( 1 ) 计算距离



计算 14 14 14 个样本 与 3 3 3 个中心点的距离 :


① 表格含义 : 如下 P 1 P_1 P1 C 1 C_1 C1 对应的表格位置值是 P 1 P_1 P1 样本 与 C 1 C_1 C1 中心点的曼哈顿距离 , 即 两个值相减取绝对值 ;

② 计算方式 : 计算 P i P_i Pi C j C_j Cj 之间的距离 , 直接将两个数值相减取平均值即可 ; i i i 取值范围 , { 1 , 2 , ⋯ , 14 } \{1 , 2 , \cdots , 14\} {1,2,,14} , j j j 的取值范围 { 1 , 2 , 3 } \{1 , 2, 3\} {1,2,3} ;

③ 计算示例 : P 3 P_3 P3 样本 与 C 2 C_2 C2 中心点的距离计算 , P 3 P_3 P3 样本的年龄属性值是 5 5 5 , C 2 C_2 C2 中心点值为 10 10 10 ; d ( P 3 , C 2 ) d(P_3, C_2) d(P3,C2) 表示两个点之间的距离 ;


d ( P 2 , C 3 ) = ∣ 5 − 10 ∣ = 5 d(P_2, C_3) = |5 - 10| = 5 d(P2,C3)=510=5


下表中的 P 3 P_3 P3 C 2 C_2 C2 列对应的值是 5 5 5 , 即上面计算出来的距离值 ;


年龄
聚类 C 1 C_1 C1 C 2 C_2 C2 C 3 C_3 C3
中心值 3 3 3 10 10 10 48 48 48
P 1 P_{1} P1 1 1 1 2 2 2 9 9 9 47 47 47
P 2 P_2 P2 3 3 3 0 0 0 7 7 7 45 45 45
P 3 P_3 P3 5 5 5 2 2 2 5 5 5 43 43 43
P 4 P_4 P4 8 8 8 5 5 5 2 2 2 40 40 40
P 5 P_5 P5 9 9 9 6 6 6 1 1 1 39 39 39
P 6 P_6 P6 11 11 11 8 8 8 1 1 1 37 37 37
P 7 P_7 P7 12 12 12 9 9 9 2 2 2 36 36 36
P 8 P_8 P8 13 13 13 10 10 10 3 3 3 35 35 35
P 9 P_9 P9 37 37 37 34 34 34 27 27 27 11 11 11
P 10 P_{10} P10 43 43 43 40 40 40 33 33 33 5 5 5
P 11 P_{11} P11 45 45 45 42 42 42 35 35 35 3 3 3
P 12 P_{12} P12 49 49 49 46 46 46 39 39 39 1 1 1
P 13 P_{13} P13 51 51 51 48 48 48 41 41 41 3 3 3
P 14 P_{14} P14 65 65 65 62 62 62 55 55 55 17 17 17


第四次迭代 : 步骤 ( 2 ) 聚类分组



1 . 为 { P 1 , P 2 , ⋯ , P 14 } \{P_1 , P_2, \cdots , P_{14}\} {P1,P2,,P14} 14 14 14 个样本分组 :


P 1 P_{1} P1 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 2 2 2 , P 1 P_1 P1 样本 分组到 K 1 K_1 K1 组 ;
P 2 P_{2} P2 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 0 0 0 , P 2 P_2 P2 样本 分组到 K 1 K_1 K1 组 ;
P 3 P_{3} P3 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 1 C_1 C1 距离最近 , 距离是 2 2 2 , P 3 P_3 P3 样本 分组到 K 1 K_1 K1 组 ;

P 4 P_{4} P4 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 2 2 2 , P 4 P_4 P4 样本 分组到 K 1 K_1 K1 组 ;
P 5 P_{5} P5 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 1 1 1 , P 5 P_5 P5 样本 分组到 K 1 K_1 K1 组 ;
P 6 P_{6} P6 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 1 1 1 , P 6 P_6 P6 样本 分组到 K 2 K_2 K2 组 ;
P 7 P_{7} P7 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 2 2 2 , P 7 P_7 P7 样本 分组到 K 2 K_2 K2 组 ;
P 8 P_{8} P8 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 2 C_2 C2 距离最近 , 距离是 3 3 3 , P 8 P_8 P8 样本 分组到 K 2 K_2 K2 组 ;

P 9 P_{9} P9 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 11 11 11 , P 9 P_9 P9 样本 分组到 K 3 K_3 K3 组 ;
P 10 P_{10} P10 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 5 5 5 , P 10 P_{10} P10 样本 分组到 K 3 K_3 K3 组 ;
P 11 P_{11} P11 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 11 P_{11} P11 样本 分组到 K 3 K_3 K3 组 ;
P 12 P_{12} P12 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 1 1 1 , P 12 P_{12} P12 样本 分组到 K 3 K_3 K3 组 ;
P 13 P_{13} P13 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 3 3 3 , P 13 P_{13} P13 样本 分组到 K 3 K_3 K3 组 ;
P 14 P_{14} P14 { C 1 , C 2 , C 3 } \{C_1, C_2, C_3\} {C1,C2,C3} 三个中心点中的 C 3 C_3 C3 距离最近 , 距离是 17 17 17 , P 14 P_{14} P14 样本 分组到 K 3 K_3 K3 组 ;


2 . 当前分组依据的中心点 : { 3 , 10 , 48 } \{3 , 10 , 48\} {3,10,48}


3 . 当前分组结果 :


K 1 = { P 1 , P 2 , P 3 } K_1 = \{ P_{1} , P_{2} , P_{3} \} K1={P1,P2,P3}

K 2 = { P 4 , P 5 , P 6 , P 7 , P 8 } K_2 = \{ P_{4} , P_{5} , P_{6} , P_{7} , P_{8} \} K2={P4,P5,P6,P7,P8}

K 3 = { P 9 , P 10 , P 11 , P 12 , P 13 , P 14 } K_3 = \{ P_{9} , P_{10} , P_{11} , P_{12} , P_{13} , P_{14} \} K3={P9,P10,P11,P12,P13,P14}


本次分组与上一次分组没有变化 , 说明聚类算法已经收敛 , 该结果就是聚类最终结果 ;


http://www.ppmy.cn/news/130846.html

相关文章

统计学习方法——K近邻模型

0. 写在前面 在这一讲的讨论班中,我们将要讨论一下K近邻模型。可能有人会说,K近邻模型有什么好写的,那分明就是一个最简单的机器学习模型,哦,不,连机器学习也算不上的算法吧。但是这里,我想提醒…

1到20的阶乘和是多少 php,20的阶乘(1到20的阶乘和结果)

如果不是电脑编程的问题 貌似只能使用计算器得到结果了吧 把计算器的显示位数调大一些 然后1的阶乘加到20的阶乘 即1!+2!+3!+…+20!=2561327494111820313 #include void main() { int i,n,sum; n=1;sum=0; for(i=1;i 和是:2561327494111820300。zd 以下是版通过C进行的计权算…

【机器学习】快速有效理解 K-Means 算法

什么是 K-Means ? 学习 K-Means 之前,大家首先需要对聚类有一个概念. 我们都知道,机器学习可以划分为 3 类:监督学习、无监督学习、强化学习. 无监督学习指的是数据没有标签,也就是说我们只有数据的特征,但并不知道这些数据都是什么,无监督学习算法或者是模型需要从这样的数…

K210学习记录(3)——kmodel生成与使用

0、引言 2022更新说明:这块芯片水太深,能不碰最好别碰,官方当时留的资料实在太少(或者说我太菜)。 如果要调用最新的nncase工具箱所支持的算子,最好采用嘉楠自家工具链VScode进行开发。不建议采用迦南官方…

机器学习(2): K-means (k均值) 聚类算法 小结

目录 1 聚类简介 2 k-means算法流程 3 利用k-means 对数据进行聚类 4 利用K-means进行图像分割 5 小结 参考资料 1 聚类简介 在无监督学习中,训练样本的标记信息是未知的,我们的目标是通过对无标记训练样本的学习来解释数据的内在性质及规律&…

S32K系列S32K144学习笔记——CAN

一用S32K144苦似海,道友,能不用,千万不去用。 本例程基以下如图所示接口操作,MCU为S32K144,开发平台S32DSworkspace 功能描述:CAN0通信 CAN0_EN–>PB15 如有错误,麻烦帮忙指出,谢…

Android 65K问题之65K来源探究

65K问题相信不少人都遇到过,65K即65536,关于这个值,是怎么来的?本文进行探究! 1Unable to execute dex: method ID not in [0, 0xffff]: 65536PS:本文只是纯探索一下这个65K的来源,仅此而已。 到底是65k还是…

聚类分析(K-means算法)

1 聚类分析 1.1 相似度与距离度量1.2 聚类算法 及 划分方法 2 聚类模型评估(优缺点)3 K-means 在 sklearn方法4 确定K值–肘部法则–SSE5 模型评估指标–轮廓系数法–最近簇 5.1 轮廓系数5.2 最近簇定义—平均轮廓系数 [0,1]:5.3、Canopy算法…