深度学习-局部最小值与鞍点【Datawhale X 李宏毅苹果书 AI夏令营】

ops/2024/10/18 7:47:46/

在网络优化时,有时会出现随着参数不断更新,训练的损失可能不会再下降,但训练结果并不满意。为什么会出现这样的情况呢?

假设排除数据集优劣的问题,可能需要进一步考虑的是为什么网络不再有新的最优值了,在此之前,先来了解有哪些情况会有最优值的出现。

出现最优值的时候是:当参数对损失的微分为0,梯度下降便不再更新参数了,训练就停止了,损失也就不再下降了。
梯度下降失效的情况
那么什么情况会导致参数对损失的微分为0呢?临界点时梯度为0。

  • 局部最小值
  • 鞍点:梯度是0,但有区别于局部极小值和局部最大值。
    局部最小值与鞍点
    如何判断临界点是局部极小值还是鞍点呢?
    需要知道损失函数的形状,但是损失函数的形式是很复杂的。有什么方法可以简化或者进一步解释吗?
    确实有,不得不提到海森矩阵H,这里就不详细展开说了,需要了解海森矩阵的可以自行去搜索了解。

判断的原理是:H的所有特征值都是正的,则说明H为正定矩阵,临界点是局部最小值,如果H的所有特征值都是负的,则说明H为负定矩阵,临界点是局部极大值,如果有正有负,则说明是临界点是鞍点。

但是,海森矩阵的计算量非常大,实际应用中基本不会使用海森矩阵计算来逃离鞍点。

常用的逃离鞍点的方法有哪些呢?
在三维空间上是鞍点的在四维空间上还会是鞍点吗?
也许局部极小值并没有鞍点那么常见,往往梯度不再更新可能遇到的是鞍点。

预知如何逃离鞍点,下期再见。


http://www.ppmy.cn/ops/100380.html

相关文章

iOS profiles文件过期如何更新

创建发布用的Certificates 首先进入到https://developer.apple.com/account页面选择【证书】进入【新建证书】页面 点击【新建证书】按钮: 根据需求选中对应的【证书类型】,我选的是【Apple Distribution】, 开发者证书选择【Apple Devel…

算法:时间复杂度与空间复杂度计算方法

计算方法 一、时间复杂度(Time Complexity)1. 基本概念2. 计算方法3.示例1.常数时间复杂度 O(1)示例:讲解: 2. 线性时间复杂度 O(n)示例1:讲解: 示例2:讲解: 3. 平方时间复杂度 O(n)…

配置PXE预启动执行环境:使用PXE装机服务器网络引导装机

文章目录 PXE概述PXE批量部署的优点基本的部署过程搭建的前提条件 搭建配置PXE装机服务器1. 准备 CentOS 7 安装源(YUM 仓库)2. 安装并启用 TFTP 服务3. 安装并启用 DHCP 服务4. 准备 Linux 内核和初始化镜像文件5. 准备 PXE 引导程序6. 安装 FTP 服务并…

FreeRTOS学习笔记>内存管理

1. 内存的概念与分类 在计算系统中,内存用于存储变量和中间数据。系统的内存可以分为两种: 内部存储空间(RAM):通常指随机存储器,数据存取速度快,可以随机访问,但掉电后数据会丢失…

es、kibana及分词器的安装

文章目录 1、搜索引擎2、为什么使用新型搜索?3、底层原理:倒排索引4、底层API5、你使用了什么分词器?6、ElasticSearch安装6.1、准备目录并授予权限6.2、制作配置文件6.3、初始化es容器6.4、重置es用户密码6.5、安装中文分词器6.5.1、 把资料…

[Hive]四、Hive On Tez

G:\Bigdata\Projects\大数据电商数仓项目(含2.0、3.0版本)\数仓项目实战V2.0\word版资料 1. Hive集成引擎Tez Tez是一个Hive的运行引擎,性能优于MR。为什么优于MR呢?看下图。 用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿色是Reduce Task,云状表示写…

基于Springboot的多功能智能点餐小程序/基于微信小程序的点餐系统

摘要 计算机网络如果结合使用信息管理系统,能够提高管理员管理的效率,改善服务质量。优秀的智能点餐系统能够更有效管理用户智能点餐业务规范,帮助管理者更加有效管理用户智能点餐,可以帮助提高克服人工管理带来的错误等不利因素。…

在银河麒麟服务器V10上源码编译安装mysql-5.7.42-linux-glibc2.12-x86_64

在银河麒麟服务器V10上源码编译安装mysql-5.7.42-linux-glibc2.12-x86_64 一、卸载MariaDB(如果已安装)二、下载MySQL源码包并解压三、安装编译所需的工具和库四、创建MySQL的安装目录及数据库存放目录五、编译安装MySQL六、配置MySQL七、设置环境变量八…