数仓第十章作业Ⅰ
文章目录
- 数仓第十章作业Ⅰ
- 第五题
- 第六题
- 第七题
第五题
设有数据集S={(1,1),(2,1),(1,2),(2,2),(4,3),(5,3),(4,4),(5,4)},令k=3,假设初始簇中心选取为:
①(1,1),(1,2),(2,2); ②(4,3),(5,3),(5,4); ③(1,1),(2,2),(5,3)
试分别用k-平均算法将S划分为k个簇,并对3次聚类结果进行比较分析。
首先,我们使用初始簇中心①(1,1),(1,2),(2,2)进行聚类。
第一次迭代: 计算每个数据点到各个簇中心的距离,并将其归类到距离最近的簇:
- (1,1) 属于簇1
- (2,1) 属于簇1
- (1,2) 属于簇1
- (2,2) 属于簇3
- (4,3) 属于簇3
- (5,3) 属于簇3
- (4,4) 属于簇3
- (5,4) 属于簇2
更新簇中心: 计算每个簇的新中心:
- 簇1的新中心为 (4/3, 4/3)
- 簇2的新中心为 (5, 4)
- 簇3的新中心为 (3.67, 3.33)