极限学习机综述
简介
神经网络是由具有适应性的简单单元组成的广泛并行互联的网络,它的组织能过够模拟生物神经系统对真实世界物体所作出的交互反应[1]。它由大量简单的处理单元(神经元)相互连接,具有极为强大的学习功能。
但在对最优化网络结构使得网络结构的误差达到最小且能获得更好的泛化能力的处理问题在业界一直是一个热点的研究问题。基于此,文献[2]提出一种新的学习方法,名为极限学习机(Extreme learning machine),该算法随机选取输入层的权重和隐藏层的偏置,最后通过最小二乘法直接计算输出层的权值。
单隐藏层前馈神经网络
单隐藏层前馈神经网络(Single-hidden Layer Feedforward Neural Networks ,SLFN)在输入层和输出层中间只有一个隐藏层。对于 N N N个不同的样本 ( x i , t i ) (x_i,t_i) (xi,ti),其中 x i = [ x i 1 , x i 2 , … , x i m ] T ∈ R n x_i=[x _{i1},x_{i2},\ldots,x_{im}]^T\in R^n xi=[xi1,xi2,…,xim]T∈Rn, t i = [ t i 1 , t i 2 , … , t i m ] ∈ R m t_i=[t_{i1},t_{i2},\ldots,t_{im}]\in R^m ti=[ti1,ti2,…,tim]∈Rm,一个隐藏层结点数目为 N ~ \widetilde{N} N 、激励函数为 g ( x ) g(x) g(x)的SLFN的模型为:
∑ i = 1 N β i g i ( x j ) = ∑ i = 1 N β i g ( w i ⋅ x j + b i ) = t j , j = 1 , 2 , ⋯ , N \sum_{i=1}^{N} \beta_ig_i(x_j) = \sum_{i=1}^{N}\beta_ig(w_i\cdot x_j + b_i)=t_j,j=1,2,\cdots,N i=1∑Nβigi(xj)=i=1∑Nβig(wi⋅xj+bi)=tj,j=1,2,⋯,N
其中 w i = [ w i 1 , w i 2 , … , w i n ] T w_i = [w_{i1},w_{i2},\ldots,w_{in}]^T wi=[wi1,wi2,…,win]T是连接第 i i i个隐藏层结点的输出权值; b i b_i bi是第 i i i个隐藏层结点的偏差; β i = [ β i 1 , β i 2 , … , β i m ] T \beta_i=[\beta_{i1},\beta_{i2},\ldots,\beta_{im}]^T βi=[βi1,βi2,…,βim]T是连接 i i i个隐藏层节点的输出权值; a i ⋅ x j a_i\cdot x_j ai⋅xj表示 a i a_i ai和 x j x_j xj的内积;激励函数 g ( x ) g(x) g(x)可以是sigmoid函数等。
上述N个方程的矩阵形式可写为:
H β = T H\beta = T Hβ=T
其中
H ( w 1 , ⋯ , w N , b 1 , ⋯ , b N , x 1 , ⋯ , x N ) = [ g ( w i 1 ⋅ x 1 + b 1 ) ⋯ g ( w N ⋅ x 1 + b N ) ⋮ ⋯ ⋮ g ( w i 1 ⋅ x N + b 1 ) ⋯ g ( w N ⋅ x N + b N ) ] N × N , H(w_1,\cdots,w_N,b_1,\cdots,b_N,x_1,\cdots,x_N)= \begin{bmatrix} g(w_{i1}\cdot x_1+b_1) & \cdots & g(w_{N}\cdot x_1+b_{N})\\ \vdots & \cdots &\vdots \\ g(w_{i1}\cdot x_N+b_1) & \cdots & g(w_{N}\cdot x_N+b_{N})\\ \end{bmatrix}_{N×N}, H(w1,⋯,wN,b1,⋯,bN,x1,⋯,xN)=⎣⎢⎡g(wi1⋅x1+b1)⋮g(wi1⋅xN+b1)⋯⋯⋯g(wN⋅x1+bN)⋮g(wN⋅xN+bN)⎦⎥⎤N×N,
β = [ β 1 T ⋮ β N T ] N × m , T = = [ t 1 T ⋮ t N T ] N × m . \beta = \begin{bmatrix} \beta_1^T \\ \vdots \\ \beta_N^T \end{bmatrix}_{N × m} , T = = \begin{bmatrix} t_1^T \\ \vdots \\ t_N^T \end{bmatrix}_{N × m}. β=⎣⎢⎡β1T⋮βNT⎦⎥⎤N×m,T==⎣⎢⎡t1T⋮tNT⎦⎥⎤N×m.
E ( W ) E(W) E(W)表示期望值和实际值之间的误差平方和,因此对单隐藏层前馈神经网络的优化求解就是寻找最优的权值 W = ( a , b , β ) W=(a,b,\beta) W=(a,b,β)使代价函数 E ( W ) E(W) E(W)最小,其数学模型可表示为:
a r g m i n W = ( a , b , β ) E ( W ) = a r g m i n W = ( a , b , β ) ∥ ϵ ∥ 2 , s . t . ∑ i = 1 N β i g ( w i ⋅ x j + b i ) − t j = ϵ j , j = 1 , 2 , ⋯ , N \mathop{argmin}_{W=(a,b,\beta)}E(W) = \mathop{argmin}_{W=(a,b,\beta)}\begin{Vmatrix}\epsilon\end{Vmatrix}^2,s.t.\sum_{i=1}^N\beta_ig(w_i\cdot x_j + b_i)-t_j=\epsilon_j,j=1,2,\cdots,N argminW=(a,b,β)E(W)=argminW=(a,b,β)∥∥ϵ∥∥2,s.t.i=1∑Nβig(wi⋅xj+bi)−tj=ϵj,j=1,2,⋯,N
其中 ϵ j = [ ϵ j 1 , ϵ j 2 , … , ϵ j m ] \epsilon_j = [\epsilon_{j1},\epsilon_{j2},\ldots,\epsilon_{jm}] ϵj=[ϵj1,ϵj2,…,ϵjm]是第 j j j个样本的误差。
极限学习机
为了优化神经元之间的权值以及偏差,Huang[2]基于以下定理提出ELM学习算法。
定理1. 对于任意 N N N个不同样本 ( x i , t i ) (x_i,t_i) (xi,ti),其中 x i = [ x i 1 , x i 2 , … , x i n ] T ∈ R n , t i = [ t i 1 , t i 2 , … , t i m ] ∈ R m x_i =[x_{i1},x_{i2},\ldots,x_{in}]^T \in R_n,t_i = [t_{i1},t_{i2},\ldots,t_{im}]\in R^m xi=[xi1,xi2,…,xin]T∈Rn,ti=[ti1,ti2,…,tim]∈Rm, N N N个隐藏层结点和一个任意区间无限可导的激活函数 g : R → R g:R\to R g:R→R,则SLFN在 a i ∈ R n a^i \in R^n ai∈Rn和 b i ∈ R b^i \in R bi∈R任意赋值的情况下,所形成的隐藏层矩阵 H H H可逆,即方程组由精确解,代价函数 E ( W ) = 0 E(W)=0 E(W)=0。
定理2. 给定任意 N N N个不同样本 ( x i , t i ) (x^i,t^i) (xi,ti),任意小的误差 e > 0 e>0 e>0,及给定任意区间无限可导的激活函数 g : R → R g:R\to R g:R→R,总存在一个包含 N ~ ( N ~ ≤ N ) \widetilde N(\widetilde N\le N) N (N ≤N)个隐藏结点的SLFN,使得在 a i ∈ R n a_i \in R^n ai∈Rn和 b i ∈ R b_i \in R bi∈R任意取值的情况下,误差 E ( W ) ≤ e E(W) \le e E(W)≤e。
定理[表明:只要隐藏层结点数足够多,SLFN就能在输入权随机赋值的情况下逼近任何连续函数,但为了使SLFN具有良好的泛化性能,通常 N ~ < < N \widetilde N<<N N <<N。当输出权以随机赋值的方式确定后,所得隐藏层矩阵 H H H便是一个确定的矩阵,因此训练SLFN就转化为计算 H β = T H\beta=T Hβ=T的最小二乘解问题[2-3]。
对ELM算法可总结如下:
- 给定训练集 X = { ( x j , t j ) ∣ x j ∈ R n , t j ∈ R m , j = 1 , … , N } X=\{(x_j,t_j)|x_j\in R^n,t_j\in R^m,j = 1,\ldots,N\} X={(xj,tj)∣xj∈Rn,tj∈Rm,j=1,…,N}且激活函数为 g ( x ) g(x) g(x),隐藏层结点个数为 N ( 1 ) N(1) N(1),随机选取输入权重 w i w_i wi和偏差 b i b_i bi;
- 计算隐层输出矩阵 H H H;
- 计算输出权重 β \beta β, β = H + T \beta = H^{+}T β=H+T。( H + H^{+} H+表示 H H H的Moore-Penrose广义逆矩阵。
ELM在预测模型中的应用
ELM由于其易于实现、速度快以及泛化能力强的特点一直在国内外的预测领域中有着广泛的应用。
在国外,ELM一直有着广泛的创新应用。文献[4]提出了一种基于ELM(极限学习机)方法估算建筑物能耗的新颖方法。文献[]将ELM应用短期电力负荷预测中,提出了一种基于ELM的STLF方法,提出了基于小波的集成策略采用不同的小波规范来创建单个预测器的集成。文献[5]使用了结合VMD的基于鲁棒内核的极限学习机(RKELM)进行日前股价预测和日趋势预测,该模型VMD-RKELM在价格预测和趋势分类性能上有着很好的应用前景,同时也优于其他预测方法。文献[6]提出本文提出了一种新的基于VMD的低秩鲁棒Morlet小波核(VMD-RMWK)极限学习机,利用印度一个实验性太阳能电站的实测数据,对不同天气条件和不同时间间隔的太阳辐射进行有效的短期预测。文献[7]提出了一种使用结合了亲和力传播聚类的新型极限学习机的生产能力分析和能源优化模型,提高了复杂石化工艺的能源效率,并实现了节能和二氧化碳减排。在文献[8]中,作者提出了一种基于粒子群优化和极限学习机的新型混合模型用于环境传感器的短期温度检测,进一步优化了资源的利用。文献[9]提出利用IBA对传统的ELM客户流失预警模型进行优化,该模型可以很好地预测客户流失,为电信运营商提供了一个有效的预警模型。
国内也有众多关于ELM预测的应用研究。文献[10]针对十字路口的短时交通流量预测问题设计了基于交通流量序列分割和极限学习机组合模型的交通流量预测算法TFPBCM,但是该算法的神经网络结构复杂,其中的网络结构不易选择,对于大型的应用会有较高的时间复杂度。文献[11]提出了基于极限学习机的采煤机功率预测模型,将极限学习机应用在采煤机方案设计中,具有较高的计算效率。文献[12]提出了一种基于在线序列极限学习机和Storm云平台结合处理大规模气象数据的方法,可以实时在线对气象数据进行分析预测,并且具有较高的准确率以及并行性能。文献[13]将ELM应用在连铸坯预测模型中,可以对钢铁企业的海量生产数据进行快速分析,并且模型取得了良好的预测效果。文献[14]以ELM预测模型为基础,基于集成学习的方法提出了一种遥测数据智能判读方法,可以对目标参数进行快速且准确的判读。文献[15]在充分考虑了气象因素、温度因素等对用电量预测的影响下,建立了CSPSO极限学习机的预测模型,使ELM短期预测模型具有较高的预测精度。文献[16]在针对新型冠状病毒已知的传播规律,将极限学习机与动力学模型结合,提出了一种新的极限IR预测模型,可以准确实现疫情趋势的实时预测,为新型冠状肺炎疫情发展趋势提供了一种有效的数据分析模型。
ELM模型的优缺点
极限学习机模型的优点是隐藏层无需迭代且学习速度较快,泛化性能良好,但是也存在一些缺点:
- ELM仅考虑经验风险,没有考虑到结构化风险,因此可能导致出现过度拟合的问题;
- ELM直接计算最小二乘解,用户无法根据数据集的特征进行微调,可控性能差;
- 数据集中存在离群点时,模型的性能将会受到很大的影响。
参考文献
[1]Kohonen T . An introduction to neural computing[J]. Neural Networks, 1988, 1(1):3-16.
[2]Huang G B , Zhu Q Y , Siew C K . Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006, 70(1/3):489-501.
[3]邓万宇, 郑庆华, 陈琳,等. 神经网络极速学习方法研究[J]. 计算机学报, 2010(02):279-287.
[4] Li S , Goel L , Wang P . An ensemble approach for short-term load forecasting by extreme learning machine[J]. Applied Energy, 2016, 170(may 15):22-29.
[5] Bisoi R , Dash P K , Parida A K . Hybrid Variational Mode Decomposition and evolutionary robust kernel extreme learning machine for stock price and movement prediction on daily basis[J]. Applied Soft Computing, 2018, 74.
[6] Irani M , Dash P K , Ranjeeta B . Variational mode decomposition based low rank robust kernel extreme learning machine for solar irradiation forecasting[J]. Energy Conversion and Management, 2018, 171:787-806.
[7] Ska B , Skp C , Rs D . A novel hybrid model based on particle swarm optimisation and extreme learning machine for short-term temperature prediction using ambient sensors - ScienceDirect[J]. Sustainable Cities and Society, 49.
[8] Yha B , Hao W , Mj A , et al. Production capacity analysis and energy optimization of complex petrochemical industries using novel extreme learning machine integrating affinity propagation[J]. Energy Conversion and Management, 2019, 180:240-249.
[9] Li M , Yan C , Liu W , et al. An early warning model for customer churn prediction in telecommunication sector based on improved bat algorithm to optimize ELM[J]. International Journal of Intelligent Systems, 2021.
[10]芮兰兰,李钦铭.基于组合模型的短时交通流量预测算法[J].电子与信息学报,2016,38(05):1227-1233.
[11]丁华,常琦,杨兆建,刘建成.基于极限学习机的采煤机功率预测算法研究[J].煤炭学报,2016,41(03):794-800.
[12]欧阳建权,周勇,唐欢容.基于Storm的在线序列极限学习机的气象预测模型[J].计算机研究与发展,2017,54(08):1736-1743.
[13]陈恒志,杨建平,卢新春,余相灼,刘青.基于极限学习机(ELM)的连铸坯质量预测[J].工程科学学报,2018,40(07):815-821.
[14]史欣田,庞景月,张新,彭宇,刘大同.基于集成极限学习机的卫星大数据分析[J].仪器仪表学报,2018,39(12):81-91.
[15]李杰,靳孟宇,马士豪.基于粒子群算法的极限学习机短期电力负荷预测[J].制造业自动化,2019,41(01):154-157.
[16]梅文娟,刘震,朱静怡,杜立.新冠肺炎疫情极限IR实时预测模型[J].电子科技大学学报,2020,49(03):362-368.