KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数...

news/2025/2/13 6:25:01/

阅读全文:http://tecdat.cn/?p=24198

《世界幸福报告》是可持续发展解决方案网络的年度报告,该报告使用盖洛普世界民意调查的调查结果研究了150多个国家/地区的生活质量。报告的重点是幸福的社交环境点击文末“阅读原文”获取完整代码数据

相关视频

在本项目中,我将使用世界幸福报告中的数据来探索亚洲22个国家或地区,并通过查看每个国家的阶梯得分,社会支持,健康的期望寿命,自由选择生活,慷慨,对腐败的看法以及人均GDP,来探索亚洲22个国家的相似和不同之处。我将使用两种聚类方法,即k均值和层次聚类,以及轮廓分析来验证每种聚类方法。

将要分析的国家和地区是:

asia <- w filer(gepl('Asia', Rgion)

1a628316780ab06c416b0e3f46ad1a5f.png

探索性数据分析

相关矩阵

pair(aia\[,-c(1,2)\], sal=TUE,col,hst.ol)

2dfed9af48876203ebb429d526338253.png

  • 阶梯得分,社会支持,生活选择的自由以及对腐败的看法的分布是左偏的。

  • 慷慨和人均GDP的分布是右偏的。

  • 健康期望寿命的偏差大约是对称的。

  • 两者之间存在很强的正相关关系:

  • 阶梯分数和社会支持

  • 健康期望寿命和人均GDP

  • 之间存在强烈的负相关关系:

  • 对腐败的看法和人均GDP

  • 之间存在中等正相关:

  • 阶梯得分和健康期望寿命

  • 社会支持与健康期望寿命

  • 人均GDP较高的国家往往对腐败的看法较低,对健康的期望寿命,社会支持和阶梯得分较高。

国家和地区比较

grd.rrnge(ggplt(sia, es(rerder(x=fctor(国家名称), 阶梯得分, FN=min), y=阶梯得分, fill=区域指标)))

09d34be7a3390e69aaa5049bd7daad36.png

  • 东亚国家的阶梯得分较高,期望寿命健康,人均GDP较高且慷慨度较低。

  • 南亚国家的阶梯得分,社会支持,健康的期望寿命和人均GDP往往较低。

  • 东南亚国家往往有很高的自由度,可以选择生活和慷慨解囊。

scterhst(aia, x = "社会支持", y = "阶梯得分",clor = "区域指标"titl = "阶梯得分与社会支持")

28369069ddc3ee5fb7c5e4fe8708adc8.png

  • 南亚的社会支持中位数,阶梯得分和人均GDP最低。

  • 东亚的社会支持中位数,阶梯得分,人均GDP和健康的期望寿命最高。

  • 东南亚的平均健康寿命中位数最低,对腐败的中位数最高。

  • 东南亚的人均GDP很高,期望寿命健康,对腐败的看法也很低(新加坡)。

  • 东亚有离群点样本对政府的了解低(香港)。


点击标题查阅往期内容

8fcd8f39dbd7907c28bfd847f050e990.jpeg

R语言鸢尾花iris数据集的层次聚类分析

outside_default.png

左右滑动查看更多

outside_default.png

01

92d39fa99d6de7aa22a6b8c93c67ce4c.png

02

dc4d2cff8e643a21e65442e8779c2f12.png

03

39e4f50911ed6e9907a18e6352c722c7.png

04

89ddebff67b4ee1417d9dd4ebe31b470.png

聚类分析

这些国家会属于不同的群体吗?在本节中,我们将使用聚类(一种无监督的学习方法,该方法基于相似性对对象进行分组)来找到国家组,其中组内的国家相似。我将使用两种方法进行聚类:分层聚类和K-Means聚类。首先,我们如何识别这些群体?衡量对象之间相似性的一种方法是测量对象之间的数学距离。一种常见的距离度量是欧几里得距离。

欧氏距离

我们将使用欧几里得距离找到彼此最相似的国家,并将它们分组在一起。

aply(z,2,mean) # 计算列的平均值
aply(z,2,sd) # 计算列的标准差
scale(z,ceter=means,scae=sds) # 标准化# 计算距离矩阵
dsae = dit(nor) # 计算欧几里得的距离

欧几里得距离矩阵为:

500add536e692fde314a63c862f1955d.png

  • 似乎国家2(新加坡)和国家22(阿富汗)彼此最不相似。

  • 15国(中国)和11国(越南)彼此最相似。

我们如何选择最佳聚类数?

肘法

for (i in 2:20) ws<- sum(kmens(nr, cetrs=i)$wthns)

fa735ccef77995e5eb86c60630664b2d.png

我们的目标是减少聚类内部的变异性,以便将相似的对象分组在一起,并增加聚类之间的变异性,以使相异的对象相距甚远。WSS(在组平方和内),它在聚类变化内进行度量,

在WSS图中,聚类数位于x轴上,而WSS位于y轴上。高的WSS值意味着聚类中的变化很大,反之亦然。我们看到,在1、2和3个聚类之后,WSS的下降很大。但是,在4个聚类之后,WSS的下降很小。因此,聚类的最佳数目为k = 4(曲线的弯头)。

K均值聚类

k均值算法如下所示:

  • 为每个观测值随机分配一个从1到K的数字,这些数字用作观测值的初始聚类分配。

  • 迭代直到聚类分配停止更改:

(a)对于K个聚类中的每一个,计算聚类质心。

(b)将每个观测值分配给质心最接近的聚类(使用欧几里得距离定义)。

聚类成员和结果

k均值聚类的结果是:

#聚类成员
asa$Cuter <- c$luser

dca72b12b6d20e1d488065106264c6c4.png

聚类图在散点图中绘制k均值聚类和前两个主成分(维度1和2)。

clstr(lstdaa = nr, cluter = cluser,col=ola), theme = hme_lsic()) + title("K-Means聚类图")

b9048d20821a576e1044717c47fa36ba.png

  • 聚类之间没有重叠。

  • 聚类2与其他聚类之间存在很多分隔。

  • 聚类1、3和4之间的间隔较小。

  • 前两个组成部分解释了点变异的70%。

4a8ede7d77a65195381062cc3372c15a.png

  • 聚类1有2个国家,其聚类平方和之内很小(在聚类变异性内)。

  • 聚类2有1个国家。

  • 具有14个国家/地区的第3组在类内变异性中最高。

  • 聚类4有5个国家,在聚类变异性中排名第二。

  • 聚类平方和与平方和之比为61.6%,非常合适。

这四个聚类的标准平均值是:

long <- melt(t(agreate(nor, )
plot(long,roup = cluster)+point(se=3)

18dee68d7f3e5c83907de13114866401.png

自由选择生活,社会支持和阶梯得分之间的差异很大。这些变量似乎对聚类形成贡献最大。

回想一下,聚类成员资格为:

第1类:印度尼西亚,缅甸

第2类:阿富汗

第3类:菲律宾,泰国,巴基斯坦,蒙古,马来西亚,越南,马尔代夫,尼泊尔,中国,老挝,柬埔寨,孟加拉国,斯里兰卡,印度

第4类:中国台湾地区,新加坡,韩国,日本,中国香港特别行政区

相对于其他聚类:

聚类1的特点是

  • 很高:慷慨

  • 高:自由选择生活

  • 一般:人均GDP,对腐败的看法,慷慨,健康的期望寿命,社会支持,阶梯得分

聚类2的特点是

  • 高:对腐败的看法

  • 低:人均国内生产总值,慷慨

  • 非常低:自由选择生活,健康的期望寿命,社会支持,阶梯得分

聚类3的特点是

  • 高:自由选择生活

  • 一般:人均GDP,对腐败的看法,慷慨,健康的期望寿命,社会支持,阶梯得分

聚类4的特点是

  • 很高:人均GDP,期望寿命健康

  • 高:社会支持,阶梯得分

  • 一般:自由选择生活

  • 低:慷慨

  • 极低:对腐败的看法

轮廓图

我们使用轮廓图来查看每个国家在其聚类中的状况。轮廓宽度衡量一个聚类中每个观测值相对于其他聚类的接近程度。较高的轮廓宽度表示该观测值很好地聚类,而接近0的值表示该观测值在两个聚类之间匹配,而负值表示该观测值在错误的聚类中。

plt(soette((cluser), diace), mn = "轮廓系数图")

e72acab7823a8429e82e36fb60722bfc.png

  • 大多数国家似乎都非常好。

  • 第3组中的国家4(泰国)和第4组中的国家5(韩国)的轮廓宽度非常低。

层次聚类

分层聚类将组映射到称为树状图的层次结构中。分层聚类算法如下所示:

  • 从n个观察值和所有成对不相似性的度量(例如欧几里得距离)开始。将每个观察值视为自己的聚类。

(a)检查i个聚类之间所有成对的聚类间差异,并找出最相似的一对聚类。加入这两个聚类。这两个簇之间的差异表明它们在树状图中的高度。

(b)计算其余聚类之间的新的成对聚类间差异。对于分层聚类,我们在聚类之间使用距离函数,称为链接函数。不同类型的链接:

  • 完全(最大聚类间差异):计算聚类1中的观测值与聚类2中的观测值之间的所有成对差异,并记录这些差异中最大的一个。

plt(aslus.c,laes=国家名称,min='全链接 k=4', hang=-1)
rct.clut(whasi.hclusc, k=4)

d90d7bfe66027b187a8d535ef65081a0.png

  • 平均值(均值聚类间差异):计算聚类1中的观测值与聚类2中的观测值之间的所有成对差异,并记录这些差异的平均值。

全链接

下面的树状图显示了使用全链接的聚类层次结构。

custr(ist(dta = or, cuse = mer.a), ghe = teelsic)) +title("全链接 lusterPlot")

a7fff2d44be31a69ec0b56867b010cf7.png

  • 聚类1有16个国家。

  • 聚类2有2个国家。

  • 聚类3有3个国家。

  • 聚类4有1个国家。

  • 聚类4和其他聚类之间有很多间隔。

  • 聚类1、2和3之间的间隔较小。

  • 聚类1中的变异性似乎很大。

轮廓图

plot(sloett(curee(asiahluc, 4), di), colmin = "全链接 轮廓系数图")

c78a9962f8a08ffa2d71c1a132986849.png

大多数国家似乎都非常好。

  • 16国(老挝)似乎是第1组的异常值。

  • 21国(印度)似乎是第3组的异常值。

平均链接

下面的树状图显示了使用平均链接的聚类层次。

plt(s.hut.,abls=国家名称,min='平均链接 k=4', hag=-1)
rec(hsth_asa.lus.a, k= boder)

1a492e3a840fc7a170cc90bd77d63d3c.png

  • 聚类1有4个国家。

  • 聚类2有1个国家。

  • 聚类3有16个国家。

  • 聚类4有1个国家。

  • 使用平均链接的聚类之间的变异性似乎大于全链接的变异性。

custr(ist(dta = or, cuse = mer.a), ghe = teelsic)) +title("平均链接 lusterPlot")

b4753cdeb43e8dae815e4f2d9bb38d92.png

轮廓图

plt(sltte(ctee(sia.lust, 4), istce), cl=cl\[:5\], min = "平均链接 轮廓系数图")

4f787be420b05bed673d861cac84f6ce.png

  • 大多数国家似乎都非常好。

  • 第1组中的8地区(香港)的轮廓宽度非常小。

讨论

k均值,全链接和平均链接的平均轮廓宽度分别为0.26、0.23和0.27。在全链接中,聚类之间的距离小于k均值和平均链接之间的距离,并且两个国家不太适合它们的聚类。因此,k均值和平均链接方法似乎比全链接具有更好的拟合度。比较k均值,全链接和平均链接,所有方法都与阿富汗匹配,成为其自己的聚类。但是,每种方法的聚类成员资格有所不同。例如,在k均值和全链接中,印度尼西亚和缅甸与大多数南亚和东南亚国家不在同一聚类中,而印度尼西亚和缅甸与在平均链接中的国家在同一聚类中。

K-means和分层聚类都产生了相当好的聚类结果。在使用大型数据集和解释聚类结果时,K-means有一个优势。K-means的缺点是它需要在开始时指定数字数据和聚类的数量。另外,由于初始聚类分配在开始时是随机的,当你再次运行该算法时,聚类结果是不同的。另一方面,分层聚类对数字和分类数据都有效,不需要先指定聚类的数量,而且每次运行算法都会得到相同的结果。它还能产生树状图,这对帮助你理解数据的结构和挑选聚类的数量很有用。然而,一些缺点是,对于大数据来说,它没有k-means那么有效,而且从树状图中确定聚类的数量变得很困难。


6205097996f08e1ddff1360bc379206d.png

本文摘选R语言KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化分析和选择最佳聚类数,点击“阅读原文”获取全文完整资料。

297943f29702029c694974a94b386ce1.jpeg

本文中的幸福数据分享到会员群,扫描下面二维码即可加群!

681d70db07b30bd2821f503d68f6c8c4.png

点击标题查阅往期内容

PYTHON实现谱聚类算法和改变聚类簇数结果可视化比较

有限混合模型聚类FMM、广义线性回归模型GLM混合应用分析威士忌市场和研究专利申请数据

R语言多维数据层次聚类散点图矩阵、配对图、平行坐标图、树状图可视化城市宏观经济指标数据

r语言有限正态混合模型EM算法的分层聚类、分类和密度估计及可视化

Python Monte Carlo K-Means聚类实战研究

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

R语言谱聚类、K-MEANS聚类分析非线性环状数据比较

R语言实现k-means聚类优化的分层抽样(Stratified Sampling)分析各市镇的人口

R语言聚类有效性:确定最优聚类数分析IRIS鸢尾花数据和可视化

Python、R对小说进行文本挖掘和层次聚类可视化分析案例

R语言k-means聚类、层次聚类、主成分(PCA)降维及可视化分析鸢尾花iris数据集

R语言有限混合模型(FMM,finite mixture model)EM算法聚类分析间歇泉喷发时间

R语言用温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图可视化

R语言k-Shape时间序列聚类方法对股票价格时间序列聚类

R语言中的SOM(自组织映射神经网络)对NBA球员聚类分析

R语言复杂网络分析:聚类(社区检测)和可视化

R语言中的划分聚类模型

基于模型的聚类和R语言中的高斯混合模型

r语言聚类分析:k-means和层次聚类

SAS用K-Means 聚类最优k值的选取和分析

用R语言进行网站评论文本挖掘聚类

基于LDA主题模型聚类的商品评论文本挖掘

R语言鸢尾花iris数据集的层次聚类分析

R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

R语言聚类算法的应用实例

2daf4306e766b877b47ccfbf9f7fab15.png

3fcff09009aa2a66c4d8afa88cb9da40.jpeg

d2264d9b43fe8d1c58d7df151c689c84.png


http://www.ppmy.cn/news/547440.html

相关文章

基于Matlab的车牌识别

基于Matlab的车牌识别 摘要:车牌识别技术是智能交通系统的重要组成部分&#xff0c;在近年来得到了很大的发展。本文从预处理、边缘检测、车牌定位、字符分割、字符识别五个方面&#xff0c;具体介绍了车牌自动识别的原理。并用MATLAB软件编程来实现每一个部分,最后识别出汽车车…

HTML5基础知识

HTML5 1、HTML5 <!DOCTYPE> <!doctype> 声明必须位于 HTML5 文档中的第一行,使用非常简单: <!DOCTYPE html>2、HTML5的改进 新元素新属性完全支持CSS3Video和Audio2D、3D绘图本地存储本地SQL数据Web应用 3、HTML5多媒体 video<audio> 4、HTML5应…

HTML5特性

HTML5新增了很多新的元素及功能&#xff1a;图形绘制&#xff0c;多媒体&#xff0c;页面结构标签&#xff0c;拖放&#xff0c;定位&#xff0c;缓存&#xff0c;history&#xff0c;网络通讯等 语义化标签&#xff1a; 标签描述<hader></header>文档的头部区域…

HTML5的新特性

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、语义化标签二、新增Input表单的类型、和属性 1.类型2.属性三、audio、video音频和视频四、Canvas绘图五、SVG绘图六、地理定位七、拖拽API八、WebStorage九…

C++ 并行编程(thread)---多线程

C 并行编程---多线程 1. 进程和线程1.1 常规解释1.2 总结1.3 具体理解1.4 为什么使用多线程1.5 进程和线程的区别 2. 并发与并行2.1 多进程并发2.2 多线程并发 3. C中的多线程4. 时间管理4.1 C语言&#xff1a;time.h4.2 C11时间标准库&#xff1a;std::chrono4.2.1 获取时间段…

MATLAB车牌识别技术实现

目 录 一. 课程设计任务11 二. 课程设计原理及设计方案22 1.系统简述22 2.图像预处理33 2.1灰度变换33 2.2边缘提取44 3.车牌定位55 4.字符分割55 5.字符识别66 三. 课程设计的步骤和结果88 四. 设计总结2222 五. 设计体会2323 六. 参考文献2424 课程设计任务在交通管理过程中&…

html的简略笔记

HTML超文本标记语言&#xff0c;描述网页的一种语言 结构 <html> <head></head> <body></body> </html> 头部 - <head>&#xff1a;关于网页的信息 主体 - <body>&#xff1a;网页的具体内容HTML元素 HTML文档是由HTML元素定…

基于Matlab的车牌识别系统完整版课论文分享 快看

基于Matlab的车牌识别系统 一、设计原理 车辆车牌识别系统的基本工作原理为&#xff1a;将摄像头拍摄到的包含车辆车牌的图像通过视频卡输入到计算机中进行预处理&#xff0c;再由检索模块对车牌进行搜索、检测、定位&#xff0c;并分割出包含车牌字符的矩形区域&#xff0c;然…