1. 摘要
本文研究全连接前馈神经网络的简单模型的高度非凸损失函数与球自旋玻璃模型的联系,基本假设是:i)变量独立;ii)网络参数冗余;iii)一致性。这些假设让我们可以利用随机矩阵理论的棱镜来解释全解耦神经网络的复杂性。本文指出,对于大规模解耦网络,随机损失函数的临界值形成一个层叠结构,它们在一个明确定义的范围内,其下界是全局最优点。该范围外的局部最优点的数量随着网络的规模而指数减少。本文经验性地证实,数学模型与计算机模拟的结果很相似,尽管在真实的网络中有高度的依赖。我们推测,模拟退火算法和随机梯度下降法(SGD)都收敛到低临界点范围,且所有的临界点都是局部极小点,其在测试集上的误差是高质量的。此处需要强调大规模网络和小规模网络的主要区别,小规模网络收敛到低质量极小点的的概率并不为零。最后,我们证明,随机网络规模的增大,收敛到全局最小值变得越来越难,但对实际问题的影响微乎其微,反而是全局极小点很可能引起过拟合。
2. 引言
深度学习在过去几年得以得兴,由于其在图像识别、语言识别、自然语言处理等领域的应用。一些广受欢迎的方法使用多层结构,交替使用线性转移层和max函数。尤其是最普遍的版本,max函数是ReLU(限制线性单元),其线性映射的形式是y = max(x,0)。在其它的结构中,比如卷积网络,maxout网络,其max操作取该层变量的一个子集。
在深度学习的实际应用中,监督学习非常深的网络占据绝对的数量优势。监督损失函数一般是交叉熵或铰合损失,使用随机梯度下降法(SGD) 进行最小化,梯度估计来自反向传播算法。
损失函数的一般形状是非常难理解的。对早期的神经网络,许多研究者和工程师曾测试过相对较小规模的网络,其收敛是不可靠的,尤其在使用批量优化时。
但是,一些研究生在测试大规模网络和随机梯度下降法时发现,多层网络的局部极小值虽然很多。但多次实验给的结果出奇地一致。这意味着,虽然局部极小值多,但它们比较容易找到,而且依据在测试集上的表现,它们或多或少是等价的。本文尝试把随机矩阵理论应用到球面高阶多项式的临界点分析以解释这一奇怪的现象。
我们首先证实,带ReLU的典型多层网络的损失函数可以表示为网络中权重的多项式函数,多项式的阶等于网络层数,多项式中单项式的数量等于输入到输出的路径数。随着权重(或输入)的变化,一些单项式消失,另一些单项式激活。这导致函数是分段连续的多项式,在分段点处有单项式的增删。
一个重要的问题关系到该函数的临界点(极大值、极小值、鞍点)分布。随机矩阵理论的结果应用于球面自旋玻璃时已经证明,该函数的鞍点的数量组合式增长。大规模神经网络的损失曲面有很多局部最小值,从在测试集上的误差的角度看,它们本质上是等价的。而且这些极小值趋向于高度简并,其海森矩阵的许多本征值是零。
我们经验性地证明了几个关于大规模网络学习的假设:
- 对于大规模网络,大部分局部极小值是等价的,且在测试集上性能相似;
- 在小规模网络上发现较差的局部极小值(虽然局部极小,但损失值依然较大)的概率是非零的,而且这个概率随着网络的规模是衰减的。
- 纠结于在训练集上找到全局极小值在实际中是毫无意义的,而且可能导致过似合。
参考文献
The Loss Surfaces of Multilayer Networks