GMM

GMM 模型

GMM由K个Gaussian分布线性叠加而成，先看看GMM的概率密度函数：

p (x) = \sum k = 1 K p (k) p (x | k) = \sum k = 1 K π k N (x | μ k, Σ k)

该函数可以这么理解，假设我们有一个数据集，然后我们现在用GMM模型来描述这个数据集的分布。在已知数据集由component k 描述的情况下，数据集的概率密度函数为： p(x|k) 。

当然，总共有 K 个component，每个component 对生成数据集的贡献为 p(k) ，或者说数据集由component k生成的概率为 p(k)，由 component k 生成数据集，其概率密度函数为 p(k)p(x|k) 。将所有的component加起来就得到了GMM的概率密度函数。有点绕口，大致懂就好。

如果我们要从 GMM 的分布中随机地取一个点的话，实际上可以分为两步：首先随机地在这 K个Gaussian Component 之中选一个，每个 Component 被选中的概率实际上就是它的系数 pi(k) ，选中了 Component 之后，再单独地考虑从这个 Component 的分布中选取一个点就可以了──这里已经回到了普通的 Gaussian 分布，转化为了已知的问题。

GMM 聚类

假设现在有一个大数据集，为什么要大数据集？待会会说。只要我们能用GMM算法来描述这个“客观存在”的数据集，那么GMM的K个component也就是对应的K个cluster了。根据数据来推算概率密度通常被称作 density estimation ，特别地，当我们在已知（或假定）了概率密度函数的形式，而要估计其中的参数的过程被称作“参数估计”。

每个component k 都是一个Gaussian分布，其均值设定为 μk ,方差设定为 Σk ，这个component的影响因子设定为 πk 。但是我们一开始并不知道每个component k 的这几个参数的具体值，聚类误差函数中除了聚类后的label y之外，还有μk 、Σk 和 πk这3个我们不知道的隐含变量，这时问题就得用EM算法来迭代求解。

参数与似然函数

现在假设我们有 N 个数据点，并假设它们服从某个分布（记作 p(x) ），现在要确定里面的一些参数的值，例如，在 GMM 中，我们就需要确定影响因子 π(k)、各类均值 μk 和各类协方差 Σk 这些参数。

我们的想法是，找到这样一组参数，它所确定的概率分布生成这些给定的数据点的概率最大，而这个概率实际上就等于 ΠNi=1p(xi)，我们把这个乘积称作似然函数 (Likelihood Function)。通常单个点的概率都很小，许多很小的数字相乘起来在计算机里很容易造成浮点数下溢，因此我们通常会对其取对数，把乘积变成加和 ∑Ni=1logp(xi) ,具体函数如下：

\sum i = 1 N log {\sum k = 1 K π k N (x i | μ k, Σ k)}

接下来我们只要将这个函数最大化（通常的做法是求导并令导数等于零，然后解方程），亦即找到这样一组参数值，它让似然函数取得最大值，我们就认为这是最合适的参数，这样就完成了参数估计的过程。

由于在对数函数里面又有加和，我们没法直接用求导解方程的办法直接求得最大值。为了解决这个问题，我们采取之前从 GMM 中随机选点的办法：分成两步，E步和M步，这就是用EM算法求解GMM的过程。其实这跟K-means的求解思想很像，或者说，K-means算法的求解中就是EM算法的精髓。

算法流程

1.估计数据由每个 Component 生成的概率（并不是每个 Component 被选中的概率）：对于每个数据来说，它由第个 Component 生成的概率为：

γ (i, k) = π k N ( x i | μ k , Σ k ) \sum K j = 1 π j N ( x i | μ j , Σ j )

其中 N(xi|μk,Σk) 就是后验概率

N (x | μ, Σ) = 1 ( 2 π ) D / 2 1 | Σ | 1 / 2 exp {- 1 2 (x - μ) T Σ - 1 (x - μ)}

2.通过极大似然估计可以通过求到令参数=0得到参数 μk， Σk的值

μ k = 1 N k \sum i = 1 N γ (i, k) x i

Σ = 1 N k \sum i = 1 N γ (i, k) (x i - μ k) (x i - μ k) T

其中，Nk=∑Ni=1γ(i,k) ，故 πk 可估计为 Nk/N

3.重复迭代前面两步，直到似然函数的值收敛为止。

算法流程图：

GMM和k-means的比较

相同点
都是迭代执行的算法，且迭代的策略也相同：算法开始执行时先对需要计算的参数赋初值，然后交替执行两个步骤，一个步骤是对数据的估计（k-means是估计每个点所属簇；GMM是计算隐含变量的期望；）;第二步是用上一步算出的估计值重新计算参数值，更新目标参数（k-means是计算簇心位置；GMM是计算各个高斯分布的中心位置和协方差矩阵）
不同点
1）需要计算的参数不同：k-means是簇心位置；GMM是各个高斯分布的参数
2）计算目标参数的方法不同：k-means是计算当前簇中所有元素的位置的均值；GMM是基于概率的算法，是通过计算似然函数的最大值实现分布参数的求解的。

GMM输出的是数据点属于每个每类的概率，我们用最大似然方法去确定分类。就严谨性来说，用概率进行描述数据点的分类，GMM显然要比K-mean好很多。