超限学习机（ELM）、在线顺序超限学习机（OS-ELM）

概念

ELM是一种应用于训练SLFN的算法，传统的单隐层前馈神经网络（Single hidden Layer Feedforward Network, SLFN）由于其结构简单、训练速度快且具有较高的泛化能力等特点，已经在模式识别、信号处理、短期预测等领域有了很多应用成果。相比于传统的基于梯度下降的BP算法来训练SLFN，ELM具有更好的泛化能力和更快的训练速度。

虽然，国内外对ELM的评价褒贬不一，但是本着学习的态度就稍稍整理一下了。

超限学习机（ELM，Extreme Learning Machine）

1、ELM学习理论

ELM的提出目的是为了解决人工神经网络训练时耗费的时间和高成本。对此，黄教授提出了ELM学习理论：

机器或者生物学习可以不需要调整隐层节点：给定任何连续目标函数或者可分类目标，只要前馈神经的隐层节点是非线性阶段连续的，神经网络无需调整隐层节点就能任意逼近目标连续函数或者对分类目标加以区分。

ELM考虑的主要问题在于高泛化能力、尽可能少的人工干预以及实时学习。

2、ELM实现原理

下面是ELM网络的结构，从直观上看，就是一个SLFN的结构图。

在隐层中的每个节点处，有如下定义:

第 $i$ 个隐层节点的输出方程为： $h_{i}(x) = G(a_{i}, b_{i}, x)$
其中 $a_{i} , b_{i}$ 为第 $i$ 个隐层节点的参数，可以理解为对应的输入权重和节点的偏向。 $G (.)$ 则是相应的激活函数，当选取不同激活函数时，得到的表现形式也便不同：
$Sigmoid:G(a_{i},b_{i},x) = g(a_{i} \times x + b_{i})$
$RBF:G(a_{i},b_{i},x) = g(b_{i}||x-a_{i}||)$
$Series:G(a_{i},b_{i},x) = cos(a_{i}\times x + b_{i})$

最后再根据任务是做分类还是回归，单分类还是多分类来进行加权求和得到输出结果：
$\sum_{i=1}^{L}\beta_{i}G(a_{i},b_{i},x)=\beta H$

对于有 $N$ 个批次的样本 $x_{i}, i=1,2,3...,N$ ，对应的目标值为 $t_{i},i=1,2,3...,N$ ，这样，目标函数就是使得 $m i n ∣ ∣ f (X) - T ∣ ∣$ ，等价于最小化损失函数 $E=\sum_{i=1}^{N}[f(x_{i}) - t_{i}]^{2}$ ，这里通过传统的梯度下降不断迭代就可以调整所有的参数，而在ELM算法中，由于隐层的输入权重 $a_{L}$ 和偏向 $b_{L}$ 是随机产生的，也就是矩阵 $H$ 是固定的，所以训练过程只需要求解方程 $\beta H = T$ 中的输出权重 $\beta$ 就可以了，也就是 $\hat{\beta} = TH^{T}$ 。

在线顺序超限学习机（OS-ELM，Online Sequential Extreme Learning Machine

因为ELM是一种 batch based 的算法，所以这就意味着在训练阶段，它需要获得所有的训练数据，然后 train then test，而不是随着新数据的到来在线更新。所以黄广斌教授的团队又提出了在线顺序超限学习机算法，用于在线学习并更新网络参数，OS-ELM具备了ELM的速度和泛化能力上的优点，并且可以随着新数据的到来不断更新模型，而不是重新训练模型。

OS-ELM分为两个部分，第一部分为通过少量的训练样本，利用ELM算法计算并初始化输出权重 $\beta_{0}$ ；第二部分开始在线学习，每次当一个新的数据样本到来时，通过一个递推公式得到新的输出权重 $\beta_{1}$ ，从而实现在线且快速的训练，具体的关于 $\beta$ 的递推公式推导可以参考大佬 https://blog.csdn.net/google19890102/article/details/45273309 的文章。

总结

关于业内对于ELM算法褒贬不一的原因还是其算法的简单、随机产生权重的不稳定，ELM利用随机初始化输入权重将求解输出权重转换为矩阵运算，通过一个单隐层的前馈神经网络来匹敌深度神经网络的复杂的梯度下降迭代的训练过程，确实让从事深度神经网络研究的一些人不得不产生质疑，但是毕竟ELM的成果也是很多的，所以一些短期预测、分类或者在线学习的问题还是可以使用的，毕竟只是个工具，用对了自然有其work的地方。