聚类注意点

聚类注意点

news/2025/4/2 4:55:10/

聚类注意点

样本异常数据

K均值（K-Means）是聚类中最常用的方法之一，它基于点与点距离的相似度来计算最佳类别归属。但K均值在应用之前一定要注意两种数据异常：

数据的异常值：数据中的异常值能明显改变不同点之间的距离相似度，并且这种影响是非常显著的。因此基于距离相似度的判别模式下，异常值的处理必不可少。
数据的异常量纲：不同的维度和变量之间，如果存在数值规模或量纲的差异，那么在做距离之前需要先将变量归一化或标准化。例如，跳出率的数值分布区间是[0，1]，订单金额可能是[0，10000000]，而订单数量则是[0，1000]。如果没有归一化或标准化操作，那么相似度将主要受到订单金额的影响。

样本数据量过大

数据量过大的时候不适合使用KMeans算法

K-Means在算法稳定性、效率和准确率（相对于真实标签的判别）上表现非常好，并且在应对大量数据时依然如此。它的算法时间复杂度上界为n kt，其中n是样本量、k是划分的聚类数、t是迭代次数。

当聚类数和迭代次数不变时，K均值的算法消耗时间只跟样本量有关，因此会呈线性增长趋势。

当真正面对海量数据时，使用K均值算法将面临严重的结果延迟，尤其是当K均值被用做实时性或准实时性的数据预处理、分析和建模时，这种瓶颈效应尤为明显。

针对K均值的这一问题，很多延伸算法出现了， MiniBatchKMeans就是其中一个典型代表。

MiniBatchKMeans使用了一个名为Mini Batch（分批处理）的方法计算数据点之间的距离。

MiniBatch的好处是计算过程中不必使用所有的数据样本，而是从不同类别的样本中 抽取一部分样本（而非全部样本）作为代表参与聚类算法过程。

由于计算样本量少，所以会相应减少运行时间；但另一方面，由于是抽样方法，抽样样本很难完全代表整体样本的全部特征，因此会带来准确度的下降

经过对30000样本点分别使用KMeans 和 MiniBatchKMeans 进行聚类，对比之后运行时间 MiniBatchKMeans 是 K-Means的一半（0.17 vs 0.36），但聚类结果差异性很小。

结论：MiniBatchKMeans在基本保持了K-Means原有较高类别识别率的前提下，其计算效率的提升非常明显。因此， MiniBatchKMeans是一种能有效应对海量数据，尽量保持聚类准确性并且大幅度降低计算耗时的聚类算法。

http://www.ppmy.cn/news/1584526.html

相关文章

NLP高频面试题（十七）——什么是KV Cache

NLP高频面试题（十七）——什么是KV Cache

在当今火热的大语言模型领域，模型的参数动辄数十亿甚至上千亿，随着输入的上下文（token长度）增加，推理过程中的计算量和显存消耗都会显著增加。其中，KV Cache 是大模型推理过程中的一种重要优化技术。本文…

阅读更多...

如何屏蔽mac电脑更新提醒，禁止系统更新

如何屏蔽mac电脑更新提醒，禁止系统更新

最烦mac的系统更新提醒了，过几天就是更新弹窗提醒，现在可以直接禁掉了，眼不见心不乱，不然一升级，开发环境全都不能用了，那才是最可怕的，屏蔽的方法也很简单，就是屏蔽mac系统更新的请…

阅读更多...

太阳能台风预警宣传信号智慧杆：科技赋能防灾减灾的新标杆

太阳能台风预警宣传信号智慧杆：科技赋能防灾减灾的新标杆

在全球气候变化持续加剧、台风灾害频繁发生的大背景之下，借助科技手段提高预警效率以及保障公共安全，已然成为现代城市管理领域的关键课题。太阳能台风预警宣传信号智慧杆（以下简称 “智慧杆”）适时出现，凭借其以绿色能…

阅读更多...

机器学习的一百个概念（3）上采样

机器学习的一百个概念（3）上采样

前言本文隶属于专栏《机器学习的一百个概念》，该专栏为笔者原创，引用请注明来源，不足和错误之处请在评论区帮忙指出，谢谢！ 本专栏目录结构和参考文献请见[《机器学习的一百个概念》 ima 知识库知识库广场搜索&…

阅读更多...

css基础之浮动相关学习

css基础之浮动相关学习

一、浮动基本介绍在最初，浮动是用来实现文字环绕图片效果的，现在浮动是主流的页面布局方式之一。效果/代码图片环绕代码 div {width: 600px;height: 400px;background-color: skyblue;}img {width: 200px;float: right;margin-right: 0.5em;}<…

阅读更多...

想弄清VR和AR区别，这一篇文章就够了

想弄清VR和AR区别，这一篇文章就够了

一、VR 与 AR 的定义差异 VR 即虚拟现实，是通过计算机生成的虚拟环境，用户可通过佩戴设备完全沉浸其中。比如，虚拟现实技术通过计算机模拟产生一个包含三维空间和时间的虚拟世界，使得用户对模拟场景产生身临其境的感觉。戴上 VR 眼…

阅读更多...

Vue 项目安装依赖报错：errno -4048

Vue 项目安装依赖报错：errno -4048

笔记： 报错使用管理换身份打开重新运行 npm install 就好！ 报错原因是因为当前 node.js 版本过高需要降低node版本重新运行 npm install 就好降级 Node.js 版本： 根据错误提示，achrinza/node-ipc9.2.2 支持的最高版本是 N…

阅读更多...

ora-38301：oracle的回收站临时表异常

ora-38301：oracle的回收站临时表异常

最近，私人计算机的oracle意外出现异常错误 ora-38301:can not execute DDL/DML to recycle object. 个人估计可能原因如下： 1. 与使用truncate有关； 2. 可能是因为我的客户端工具有两类：PL/SQL 和 eclipse的Data Source Explo…

阅读更多...

最新文章