The Loss Surfaces of Multilayer Networks论文阅读

news/2024/11/20 13:16:28/

1. 摘要

本文研究全连接前馈神经网络的简单模型的高度非凸损失函数与球自旋玻璃模型的联系,基本假设是:i)变量独立;ii)网络参数冗余;iii)一致性。这些假设让我们可以利用随机矩阵理论的棱镜来解释全解耦神经网络的复杂性。本文指出,对于大规模解耦网络,随机损失函数的临界值形成一个层叠结构,它们在一个明确定义的范围内,其下界是全局最优点。该范围外的局部最优点的数量随着网络的规模而指数减少。本文经验性地证实,数学模型与计算机模拟的结果很相似,尽管在真实的网络中有高度的依赖。我们推测,模拟退火算法和随机梯度下降法(SGD)都收敛到低临界点范围,且所有的临界点都是局部极小点,其在测试集上的误差是高质量的。此处需要强调大规模网络和小规模网络的主要区别,小规模网络收敛到低质量极小点的的概率并不为零。最后,我们证明,随机网络规模的增大,收敛到全局最小值变得越来越难,但对实际问题的影响微乎其微,反而是全局极小点很可能引起过拟合。

2. 引言

深度学习在过去几年得以得兴,由于其在图像识别、语言识别、自然语言处理等领域的应用。一些广受欢迎的方法使用多层结构,交替使用线性转移层和max函数。尤其是最普遍的版本,max函数是ReLU(限制线性单元),其线性映射的形式是y = max(x,0)。在其它的结构中,比如卷积网络,maxout网络,其max操作取该层变量的一个子集。

在深度学习的实际应用中,监督学习非常深的网络占据绝对的数量优势。监督损失函数一般是交叉熵或铰合损失,使用随机梯度下降法(SGD) 进行最小化,梯度估计来自反向传播算法。

损失函数的一般形状是非常难理解的。对早期的神经网络,许多研究者和工程师曾测试过相对较小规模的网络,其收敛是不可靠的,尤其在使用批量优化时。

但是,一些研究生在测试大规模网络和随机梯度下降法时发现,多层网络的局部极小值虽然很多。但多次实验给的结果出奇地一致。这意味着,虽然局部极小值多,但它们比较容易找到,而且依据在测试集上的表现,它们或多或少是等价的。本文尝试把随机矩阵理论应用到球面高阶多项式的临界点分析以解释这一奇怪的现象。

我们首先证实,带ReLU的典型多层网络的损失函数可以表示为网络中权重的多项式函数,多项式的阶等于网络层数,多项式中单项式的数量等于输入到输出的路径数。随着权重(或输入)的变化,一些单项式消失,另一些单项式激活。这导致函数是分段连续的多项式,在分段点处有单项式的增删。

一个重要的问题关系到该函数的临界点(极大值、极小值、鞍点)分布。随机矩阵理论的结果应用于球面自旋玻璃时已经证明,该函数的鞍点的数量组合式增长。大规模神经网络的损失曲面有很多局部最小值,从在测试集上的误差的角度看,它们本质上是等价的。而且这些极小值趋向于高度简并,其海森矩阵的许多本征值是零。

我们经验性地证明了几个关于大规模网络学习的假设:

  • 对于大规模网络,大部分局部极小值是等价的,且在测试集上性能相似;
  • 在小规模网络上发现较差的局部极小值(虽然局部极小,但损失值依然较大)的概率是非零的,而且这个概率随着网络的规模是衰减的。
  • 纠结于在训练集上找到全局极小值在实际中是毫无意义的,而且可能导致过似合。

参考文献

The Loss Surfaces of Multilayer Networks


http://www.ppmy.cn/news/18766.html

相关文章

第七层:多态

文章目录前情回顾多态多态的基本概念动态多态的满足条件动态多态的使用虚函数多态的优点纯虚函数和抽象类抽象类特点虚析构和纯虚析构虚析构和纯虚析构的共性虚析构和纯虚析构的区别面向对象结束,接下来是什么?本章知识点(图片形式)&#x1…

51单片机数码管显示

文章目录前言一、数码管简介二、数码管原理图三、数码管显示原理四、静态数码管代表编写五、动态数码管总结前言 这篇文章将介绍数码管的显示其中包含了动态数码管和静态数码管两种。 一、数码管简介 数码管其实就是由多个发光二极管封装在一起组成“8”字型的器件当分别点亮…

SpringCloud+Ribbon 报错:java.net.unknownhostexception:XXX

SpringCloudRibbon 报错:java.net.unknownhostexception:XXX 问题分析: 网上很多的说法是依赖冲突导致,原因是什么呢:如果你的org.springframework.cloud:spring-cloud-starter-netflix-eureka-client 依赖中包含了ribbon依赖&…

学习记录667@项目管理之项目人力资源管理

什么是项目人力资源管理 项目人力资源管理包括编制人力资源管理计划、组建项目团队、建设项目团队与管理项目团队的各个过程,不但要求充分发挥参与项目的个人的作用,还包括充分发挥所有与项目有关的人员-----项目负责人、客户、为项目做出贡献的个人及其…

Linux下进程以及相关概念理解

目录 一、进程概念 二、描述进程PCB 三、查看进程 3.1 通过系统目录查看 3.2 通过ps命令查看 四、进程状态 运行状态R 睡眠状态S 磁盘休眠状态D 暂停状态T 僵尸状态Z 死亡状态X 五、僵尸进程与孤儿进程 5.1 僵尸进程 5.1.1 僵尸进程的概念 5.1.2 僵尸进程的危害…

PowerShell 执行策略

在使用 SAPIEN 的PowerShell Studio时出现如下错误:无法在当前系统上运行该脚本。有关运行脚本和设置执行策略的详细信息,请参阅 https:/go.microsoft.com/fwlink/?LinkID135170 中的 about_Execution_Policies。 ERROR: 所在位置 行:1 字符: 2 ERROR: …

34.Isaac教程--操作示例应用程序

操作示例应用程序 ISAAC教程合集地址文章目录操作示例应用程序与 Jupyter Notebook 的简单联合控制Shuffle Box with Simulator与 Jupyter Notebook 的简单联合控制 此示例使用 Jupyter Notebook 提供交互式联合控制。 这是处理用于操作组件(包括 LQR 规划器&#…

文件没学懂没关系,我来教你快速学会文件

1. 什么是文件 文件通常是在磁盘或固态上的一段已经命名的存储区。C把文件看作是一系列连续的字节,每个字节都被单独读取。 在程序设计中,我们一般谈的文件有两种:程序文件、数据文件(从文件功能的角度来分类的) 1.…