【Python】sklearn机器学习之Birch聚类算法

news/2024/11/17 18:21:13/

文章目录

    • 基本原理
    • sklearn调用

基本原理

BIRCH,即Balanced Iterative Reducing and Clustering Using Hierarchies,利用分层的平衡迭代规约和聚类,特点是扫描一次数据就可以实现聚类,

而根据经验,一般这种一遍成功的算法,背后一定有一棵树,而这棵树的生成规则,往往就是算法的核心。Birch算法的核心,叫做聚类特征树(Clustering Feature Tree),简称CF树。

CF树由CF构成,每个CF都是三元组,表示为(N, LS, SS),其中N表示点数;LS表示点的向量和;SS表示CF各分量的平方和。

CF树常见的操作有两个,分别是添加样本点和CF分裂。而一个新的样本点到来之后,是融入现有的CF,还是另行开辟一个新的CF,则要受到至少两个参数的约束:

  1. 最大CF数
  2. 每个CF的最大样本半径

sklearn调用

sklearn中,Birch类的构造函数如下

Birch(*, threshold=0.5, branching_factor=50, n_clusters=3, compute_labels=True, copy=True)

其中

  • threshold表示CF最大样本半径,当新的样本加入到某个CF中后,如果大于threshold,则会发生CF分裂。
  • branching_factor 表示每个节点的最大CF个数

考虑到Birch适用于较大样本数量,所以下面

import numpy as np
from sklearn.cluster import Birch
from sklearn.datasets import make_blobs
import matplotlib.pyplot as pltxs, ys = np.indices([10,10])*5
n_centers = np.array(list(zip(xs.reshape(-1), ys.reshape(-1))))
X, y = make_blobs(n_samples=25000, centers=n_centers, random_state=0)
birch = Birch(threshold=1.7, n_clusters=None)
birch.fit(X)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

效果为

在这里插入图片描述

貌似效果不太好,主要原因可能是没预设样本数,

birch = Birch(threshold=1.7, n_clusters=100)
birch.fit(X)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

n_cluster设为100之后,效果为

在这里插入图片描述

接下来测试一下Birch算法的效率,通过make_blobs生成10万个点,然后通过Birch算法完成聚类

import time
X, y = make_blobs(n_samples=100000, centers=n_centers, random_state=0)
t = time.time()
birch = Birch(threshold=1.7, n_clusters=100)
birch.fit(X)
print(time.time()-t)
plt.scatter(X[:,0], X[:,1], c=birch.labels_, marker='.')
plt.show()

耗时2.79s,聚类结果为
在这里插入图片描述


http://www.ppmy.cn/news/8393.html

相关文章

AlphaGo简易版MuGo源码解析

文章目录前言源码实现MuGo的输入数据模型的搭建模型的训练参考链接结语前言 自从AlphaGo横空出世,战胜李世石后,AI围棋如雨后春笋一般遍地开花。阅读DeepMind的论文有时还是隔靴搔痒,只有钻到代码里,才能一探究竟。于是&#xff…

Spring 核心概念 IOC/DI IOC容器 Bean

目录 一:代码书写现状 二:核心思想 一:代码书写现状 常规操作如上,但存在着问题,将项目上线后,需要将数据层进行更换,更换如下: 数据层更换后,业务层也需要进行更换,更换如下: 数据…

spring boot 实现搜索引擎的设计思想

实现思路 索引构建模块 搜索模块 数据库模块 索引模块 对于搜索一个东西,我们很自然的能想到遍历去查找。比如我要查找一本书叫 《红楼梦》,那么我直接在所有结果中进行遍历查找,当我们找到书名为《红楼梦》的结果时,就代表我们…

俯瞰·明统一战争·北伐中原

目录 背景 北方战略位置、前三次北伐快速俯瞰 实施策略 第一阶段 第二阶段 第三阶段 影响 雪压枝头低,虽低不着泥。一朝红日出,依旧与天齐。 背景 元至正二十七年(1367年)四月,吴王朱元璋命中书右丞相徐达为征…

沸腾过程气泡成核OVITO渲染

《Lammps空间划分——识别气泡、三维裂隙》 根据博文对纳米气泡的筛选(获得select),本案例练习如何渲染气泡。 文章目录一、选择气泡(select)二、删除液体三、渲染液体四、巧妙利用原子半径大小五、气泡渲染并获得体积…

笑对过往、活在当下、期盼未来

哈喽大家好,我是阿Q。 去年今日,也是安静的午后,拿起铅笔在纸上寥寥草草的写下几个年终关键词,思索良久,迟迟未能下笔。 时至今日,年末将至,再次执笔已时隔一年,再不拿笔记录这转瞬…

【数据集6】全球人工不透水面积GAIA

全球人工不透水面积(lobal artificial impervious area, GAIA) 人工不透水区是表征建成区和城市范围的重要覆盖类型,特别是在较细的空间分辨率下。 1 简介 原理: 由Landsat卫星图像和辅助数据集生成,如夜间灯光数据…

CSS权威指南(一)CSS概述

文章目录1.元素2.引入样式表3.样式表4.媒体查询5.特性查询1.元素 (1)置换元素和非置换元素 置换元素,指用来置换元素内容的部分不由文档内容直接表示。比如img标签。非置换元素,元素的内容是由用户代理在元素自身生成的框中显示…