【机器学习】 - 作业5: 基于Kmeans算法的AAAI会议论文聚类分析

news/2024/11/27 3:57:54/

课程链接: 清华大学驭风计划

代码仓库:Victor94-king/MachineLearning: MachineLearning basic introduction (github.com)


驭风计划是由清华大学老师教授的,其分为四门课,包括: 机器学习(张敏教授) , 深度学习(胡晓林教授), 计算机语言(刘知远教授) 以及数据结构与算法(邓俊辉教授)。本人是综合成绩第一名,除了数据结构与算法其他单科均为第一名。代码和报告均为本人自己实现,由于篇幅限制,只展示任务布置以及关键代码,如果需要报告或者代码可以私聊博主



机器学习部分授课老师为张敏教授,主要主要通过介绍决策树,线性回归,贝叶斯模型,SVM算法,K近邻算法,Kmeans算法以及集成学习算法等入门机器学习。


有任何疑问或者问题,也欢迎私信博主,大家可以相互讨论交流哟~~



本次实验以AAAI 2014会议论文数据为基础,要求实现或调用无监督聚类算法,了解聚类方法。

任务介绍

每年国际上召开的大大小小学术会议不计其数,发表了非常多的论文。在计算机领域的一些大型学术会议上,一次就可以发表涉及各个方向的几百篇论文。按论文的主题、内容进行聚类,有助于人们高效地查找和获得所需要的论文。本案例数据来源于AAAI 2014上发表的约400篇文章,由UCI公开提供,提供包括标题、作者、关键词、摘要在内的信息,希望大家能根据这些信息,合理地构造特征向量来表示这些论文,并设计实现或调用聚类算法对论文进行聚类。最后也可以对聚类结果进行观察,看每一类都是什么样的论文,是否有一些主题。

基本要求:

  1. 将文本转化为向量,实现或调用无监督聚类算法,对论文聚类,例如10类(可使用已有工具包例如sklearn);
  2. 观察每一类中的论文,调整算法使结果较为合理;
  3. 无监督聚类没有标签,效果较难评价,因此没有硬性指标,跑通即可,主要让大家了解和感受聚类算法,比较简单。

扩展要求:

  1. 对文本向量进行降维,并将聚类结果可视化成散点图。

注:group和topic也不能完全算是标签,因为

  1. 有些文章作者投稿时可能会选择某个group/topic但实际和另外group/topic也相关甚至更相关;
  2. 一篇文章可能有多个group和topic,作为标签会出现有的文章同属多个类别,这里暂不考虑这样的聚类;
  3. group和topic的取值很多,但聚类常常希望指定聚合成出例如5/10/20类;
  4. 感兴趣但同学可以思考利用group和topic信息来量化评价无监督聚类结果,不作要求。

提示:

  1. 高维向量的降维旨在去除一些高相关性的特征维度,保留最有用的信息,用更低维的向量表示高维数据,常用的方法有PCA和t-SNE等;
  2. 降维与聚类是两件不同的事情,聚类实际上在降维前的高维向量和降维后的低维向量上都可以进行,结果也可能截然不同;
  3. 高维向量做聚类,降维可视化后若有同一类的点不在一起,是正常的。在高维空间中它们可能是在一起的,降维后损失了一些信息。


报告

核心代码

自己实现的Kmeans算法

class My_keans(object):def __init__(self, n = 8, random_seed = 1,metric = 'euclidean'):self.n = nself.random_seed = random_seedself.metric = metricdef fit(self,x):'''实现步骤:1. 生成n个随机点作为类中心2. 将离根据中心点距离远近分类3. 重新计算每一类的均值中心4. 重复步骤23,直到收敛'''np.random.seed(self.random_seed)x = np.array(x)  # 确保可以利用shape属性dimension = x.shape[1] #数据维度#1. 先成n个随机的点,每个点应该是[与数据维度相同]self.inertia_ = np.random.choice(x.reshape(-1),size=(self.n,dimension) ,replace=False)# 递归的更新inertia_i = 0while True:#2. 根据距离中心点距离进行分类,label = self.clsfy(self.inertia_ , x)#3. 更新中心点inertia_= self.update_center(label , x)delta = np.sum((self.inertia_ - inertia_)) #记录下更新点self.inertia_ = inertia_  #更新mean点i += 1print(f"第{i}次更新均值点")##当目标函数不再更新就停止if delta == 0 : breakreturn labeldef update_center(self,label,x):'''label:对应的标签x:所有点的坐标----------------------------------------------------------------return:center '''label = np.array(label).reshape((-1,1)) #转成arrayx = pd.DataFrame(x) #转换成dataFrame 是为了用groupbyx['lable'] = label  #添加label进dfcenter = np.array( x.groupby('lable').mean()) #求得每个lable下的平均return centerdef clsfy(self, inertia_ , x): '''inertia:所有中心点的坐标,x : 数据 eg m*n矩阵 ---------------------------------------------------------------return: 所有数据的标签 m向量'''lable = [ np.argmin(cdist([i],inertia_ , metric = self.metric)) for i in x ] ##利用cdist函数可以计算距离,返回最近距离对应的下标即为标签return lable

可视化

通过PCA降维后,再聚类结果如下:

1684502981081


http://www.ppmy.cn/news/74459.html

相关文章

C++ -- 存储类型说明

存储类型说明 提前说明: 存储持续性 : C使用三种不同的方案来存储诗句(区别:数据保留在内存中的时间) 自动存储持续性:在函数定义中声明的变量(包含函数参数)的存储持续性是自动的…

[Nacos] Nacos Client获取调用服务的提供者列表 (四)

文章目录 1.Nacos Client获取调用服务的提供者列表1.1 从Ribbon的负载均衡入手到Nacos Client获取调用服务的提高者列表1.2 getServers方法返回分析1.3 通过selectInstances方法查找Instances实例1.4 获取到要调用服务的serviceInfo Nacos Client 从Ribbon负载均衡调用服务。 …

【大数据】Presto(Trino)REST API 与执行计划介绍

文章目录 一、概述二、环境准备三、常用 REST API1)worker 节点优雅退出2)提交SQL查询请求3)获取查询状态4)获取查询结果5)取消查询请求6)获取Presto 节点信息7)获取Presto服务器使用统计信息8&…

单模光纤二维模场分布的MATLAB仿真

在上一篇文章中,我们介绍了单模光纤的一维模场分布,能看出沿着径向的光场分布情况,并分析能量的分布 这一篇中,我们绘制光纤横截面上的二维光场分布:代码如下: clear close all V 2.4000; U 1.6453; W …

NC高频问题

1、在数据权限节点新增授权规则,规则明细需要增加一个查询条件。 答:使用系统管理员登录,在元数据过滤管理节点场景选择数据权限,将需要的字段勾选启用。 2、收款分析明细查询不到期初的应收数据。 答:该报表是查询收…

【Linux之IO系统编程学习】01.open函数使用 代码实现touch命令效果

【Linux之IO系统编程学习】 项目代码获取:https://gitee.com/chenshao777/linux_-io.git (麻烦点个免费的Star哦,您的Star就是我的写作动力!) 01.open函数使用 & 代码实现touch命令 一、open函数(ma…

Unity使用URP基础介绍文章目录

大家好,我是阿赵,之前写了几篇关于Unity的URP渲染管线的介绍文章,我觉得又可以整理出一个系列的文章目录了。暂时写的内容都比较的基础,之后如果继续写相关的文章,可以继续扩充这个目录。   URP(Universal Render Pi…

c++实现gRPC

无论什么语言,实现grpc的核心是.proto文件,通过protoc命令将.proto文件生成grpc框架的接口文件*gb*, 该文件中包含.proto定义的方法及参数接口,服务器,客户端相关操作接口;然后再编写服务器,客户端代码&…