机器学习(四)之无监督学习

embedded/2024/9/24 10:20:49/

前言:

前面写了监督学习的几种算法,下面就开始无监督啦!
如果文章有错误之处,小伙伴尽情在评论区指出来(嘿嘿),看到就会回复的。

 1.聚类(Clustering)

1.1 概述(Overview of clustering methods)

 

 当这个类有一定形状(图的最上两行),即非平面流体,并且标准的欧式距离不是正确的度量标准时,聚类是非常有用的。

1.2 K-means

1.2.1 概念

通过把样本分离成 n 个具有相同方差的类的方式来对数据进行聚类,最小化一个称为惯量或簇内平方和的准则(见下文)。该算法需要指定簇的数量。它可以很好地扩展到大量样本,并已经在许多不同领域的应用领域被广泛使用。

注:簇和类应该是一样的概念,我们一同使用。

 1.2.2 实现

X_{i}是样本,\displaystyle \mu _{i}是簇心。下面是误差公式:

  1. 输入K和数据集N,tol(阈值)
  2. 随意初始化一个K个样本作为一个簇的中心(质心)
  3. 将离质心近的样本归为一类,计算簇內平方和误差
  4. 计算簇內均值更新质心
  5. 重复3,4步骤直到误差<tol或者到了最大循环次数,跳出循环,返回簇心

 

说明:

这个K-Mean需要调参(比悲伤更悲伤的事) 

n_clusters(K值),

max_iter(最大收敛次数),

n_init(不同的初始化质心运行算法的次数,一般不需要修改,默认是10,如果你的K值较大,可以适当增大),

algorithm:有“auto”, “full” or “elkan”三种选择。"full"就是传统的K-Means算法, “elkan”是elkan K-Means算法。默认的"auto"则会根据数据值是否是稀疏的,来决定如何选择"full"和“elkan”。一般数据是稠密的,那么就是 “elkan”,否则就是"full"。一般来说建议直接用默认的"auto"

1.2.3 代码

import matplotlib.pyplot as plt
import mpl_toolkits.mplot3dimport numpy as npfrom sklearn import datasets
from sklearn.cluster import KMeansnp.random.seed(5)
iris=datasets.load_iris()
x=iris.data  #4个特征
y=iris.targetestimators=[('K_means_iris_8',KMeans(n_clusters=8)),('K_means_iris_3',KMeans(n_clusters=3)),('K_means_iris_bad_init',KMeans(n_clusters=3,n_init=1,init='random')),
]
fig=plt.figure(figsize=(10,8))   #指定宽高:画一个1500*1200的图
titles=["8 clusters","3 clusters","3 clusters,bad initialization"]
for idx,((name,est),title) in enumerate(zip(estimators,titles)):  #使用每个不同 的方法进行训练和画图ax=fig.add_subplot(2,2,idx+1,projection="3d",elev=48,azim=134)est.fit(x)labels=est.labels_ax.scatter(x[:,3],x[:,0],x[:,2],c=labels.astype(float),edgecolor='k')  #取了三个特征进行画图ax.xaxis.set_ticklabels([])ax.yaxis.set_ticklabels([])ax.zaxis.set_ticklabels([])ax.set_xlabel('Patel width')ax.set_ylabel('Sepal length')ax.set_zlabel('Patel length')ax.set_title(title)ax=fig.add_subplot(2,2,4,projection='3d',elev=48,azim=134)  #增加一个子图
for name,label in [("Setosa", 0), ("Versicolour", 1), ("Virginica", 2)]:ax.text3D(x[y==label, 3].mean(),   ###x[y==label, 3]中间有个空格,我找了半个小时!!!x[y==label, 0].mean(),x[y==label, 2].mean()+2,name,horizontalalignment="center",bbox=dict(alpha=0.2,edgecolor='w',facecolor='w'),)
ax.scatter(x[:,3],x[:,0],x[:,2],c=y,edgecolor='k')
ax.xaxis.set_ticklabels([])
ax.yaxis.set_ticklabels([])
ax.zaxis.set_ticklabels([])
ax.set_xlabel("Petal width")
ax.set_ylabel("Sepal length")
ax.set_zlabel("Petal length")
ax.set_title("Ground Truth")
plt.subplots_adjust(wspace=0.25,hspace=0.25)
plt.show()

 总结:

从上图中可以看出,K值很大影响了这个簇分的好不好,所以这个很重要。下面这个n_init比上面那个要差一点是因为值太小了。

模型好坏跟参数太息息相关啦!!!

1.2.4 拓展

Mini Batch K-Means:

这个和K-Means差不多,只是每次取小批量的数据进行训练。这些小批量极大减少了收敛到局部解所需的计算量。 与其他降低 k-means 收敛时间的算法相比,小批量 k-means 产生的结果一般只比标准算法略差。

1.3  AP聚类算法(Affinity propagation)

1.3.1 引入

概念:

通过在不同点之间不断的传递信息,从而最终选出聚类中心,完成聚类。

优点:
  1. 不需要指定最终聚类族的个数
  2. 已有数据点作为最终的聚类中心,而不是新生成一个族中心
  3. 模型对数据的初始值不敏感
  4. 对初始相似度矩阵数据的对称性没有要求
  5. 相比与K-centers聚类方法,其结果的平方差误差较小

1.3.2  实现

 好啦,后面有时间再填一些算法。

欢迎大家点赞,收藏!


http://www.ppmy.cn/embedded/19280.html

相关文章

python爬虫 - 爬取html中的script数据(zum.com新闻信息 )

文章目录 1. 分析页面内容数据格式2. 使用re.findall方法&#xff0c;编写爬虫代码3. 使用re.search 方法&#xff0c;编写爬虫代码 1. 分析页面内容数据格式 &#xff08;1&#xff09;打开 https://zum.com/ &#xff08;2&#xff09;按F12&#xff08;或 在网页上右键 --…

5G网络架构;6G网络架构

目录 5G和6G架构 6G网络架构 5G和6G架构 在设计和功能上有显著的区别,这主要体现在它们各自的核心特点、优势和应用场景上。 5G技术架构的核心特点包括高速率与低延迟、大容量与高密度以及网络切片。高速率与低延迟极大地提升了用户体验,支持更多实时应用和大规模数据传输…

自动化爬虫工具:you-get安装与使用

Windows下的安装命令&#xff1a; pip install you-get linux下的安装命令&#xff1a; pip3 install you-get 下载完成后&#xff0c;我们可以看到如下的警告&#xff0c;意思就是这个工具并未被添加到环境变量中&#xff0c;如果我们想在命令行中直接调用&#xff0c;需要…

跳出框架:Facebook的创新策略与社交影响

1. 引言 在数字化时代&#xff0c;社交媒体如同一面镜子&#xff0c;反映出我们社会的多元性和变革。Facebook&#xff0c;作为这面镜子中最明亮的一个&#xff0c;不仅改变了人们的日常生活&#xff0c;更深刻地塑造了社交、文化和经济的面貌。本文将深入探讨Facebook的创新策…

数据结构-双链表(图解)

目录 双链表&#xff08;Double-Linked List&#xff09;的概念与基本特性 一、双链表的基本组成 二、双链表的主要特性 三、双链表的操作 代码展示 malloc开辟函数 解析 初始化 解析 头插 解析 尾插 解析 头删 解析 尾删 解析 pos之后插入 解析 pos删除 …

NL2SQL技术方案系列(6):金融领域知识检索,NL2SQL技术方案以及行业案例实战讲解4

NL2SQL技术方案系列(6):金融领域NL2SQL技术方案以及行业案例实战讲解4 NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析[Text2SQL、Text2DSL] NL2SQL基础系列(2):主流大模型与微调方法精选集,Text2SQL经典算法技术回顾七…

浏览器的同源策略与解决跨域

同源策略&#xff08;协议、域名、端口&#xff09; 同源策略&#xff08;Same-Origin Policy&#xff09;是一个在浏览器安全模型中被实施的重要安全机制。它是基于域名、协议和端口号的限制&#xff0c;用于防止不同源的网页间的恶意行为和信息泄露。 根据同源策略&#xf…

你知道充气膜结构有哪些优势和特点吗—轻空间

充气膜结构作为一种相对密闭的空间结构&#xff0c;在建筑领域中展现出独特的优势和特点。以下是充气膜结构具有的优势&#xff1a; 1. 良好的经济性&#xff1a; 充气膜结构具有较低的造价&#xff0c;尤其适用于大跨度、地质条件差的场合。由于无需传统建筑的刚性支撑结构&am…