1.聚类问题

1）聚类问题与核心概念

聚类算法做的事情，就是对无标签的数据，基于数据分布进行分群分组，使得相似的数据尽量落在同一个簇内。

聚类算法详解; 聚类问题; 核心概念;

我们先对比区分一下聚类和分类：

聚类是一种无监督学习，而分类是一种有监督的学习。
聚类只需要人工指定相似度的标准和类别数就可以，而分类需要从训练集学习分类的方法

聚类算法详解; 聚类问题; 分类 V.S. 聚类;

2）主流聚类算法

我们先对聚类算法做个了解，主流的聚类算法可以分成两类：划分聚类（Partitioning Clustering）和层次聚类（Hierarchical Clustering）。他们的主要区别如图中所示：

划分聚类算法会给出一系列扁平结构的簇（分开的几个类），它们之间没有任何显式的结构来表明彼此的关联性。

常见算法有 K-Means / K-Medoids、Gaussian Mixture Model （高斯混合模型）、Spectral Clustering（谱聚类）、Centroid-based Clustering等。

层次聚类会输出一个具有层次结构的簇集合，因此能够比划分聚类输出的无结构簇集合提供更丰富的信息。层次聚类可以认为是是嵌套的划分聚类。

常见算法有 Single-linkage、Complete-linkage、Connectivity-based Clustering等。

这两类算法在聚类过程中用到的具体算法不一样。聚类算法详解; 主流聚类算法; 划分聚类 V.S. 层次聚类;

1.K-Means聚类算法

K-Means算法是聚类算法中一个非常基础的算法，同时应用又非常广泛。

1）K-Means算法核心概念

我们提到了聚类算法要把 n个数据点按照分布分成k类。我们希望通过聚类算法得到 k个中心点，以及每个数据点属于哪个中心点的划分。

中心点可以通过迭代算法来找到，满足条件：所有的数据点到聚类中心的距离之和是最小的。
中心点确定后，每个数据点属于离它最近的中心点。

聚类算法详解; K-Means聚类算法; 算法核心概念;

2）K-Means算法步骤

K-Means 采用 EM算法 迭代确定中心点。流程分两步：

① 更新中心点：初始化的时候以随机取点作为起始点；迭代过程中，取同一类的所有数据点的重心（或质心）作为新中心点。
② 分配数据点：把所有的数据点分配到离它最近的中心点。

重复上面的两个步骤，一直到中心点不再改变为止。过程如图所示：

聚类算法详解; K-Means聚类算法; 算法步骤;

2.层次聚类算法

相比于 K-Means 这类划分聚类，我们有另外一类层次化聚类算法。

1）层次聚类 vs 划分聚类

划分聚类得到的是划分清晰的几个类，而层次聚类最后得到的是一个树状层次化结构。

3. Birch算法

Birch（Balanced Iterative Reducing and Clustering using Hierarchies）是层次聚类的典型代表，天生就是为处理超大规模数据集而设计的，它利用一个树结构来快速聚类，这个树结构类似于平衡B+树，一般将它称之为聚类特征树(Clustering Feature Tree，简称CF Tree)。这颗树的每一个节点是由若干个聚类特征(Clustering Feature，简称CF)组成。