深度学习-----------数值稳定性

深度学习-----------数值稳定性

devtools/2024/10/19 3:31:28/

目录

神经网络的梯度
数值稳定性的常见两个问题
- 例子：MLP
梯度爆炸
- 梯度爆炸的问题
梯度消失
- 梯度消失的问题
总结
模型初始化和激活函数
- 让训练更加稳定
- 让每层的方差是一个常数
权重初始化
正向均值和方差
- 正向均值
- 正向方差
反向均值和方差
Xavier初始
正向和反向的均值和方差（书上）
- 正向均值和方差
- 反向均值和方差
从线性的激活函数的角度提升数值稳定性
- 正向
- 反向
检查常用激活函数
总结
问题

在这里插入图片描述

神经网络的梯度

考虑如下有d层的神经网络，输入x和输出y的深层网络。每一层t由线性变换 $f_1$ 定义，该变换的参数为权重 $w^{(t)}$ ,其隐藏变量是 $h^{(t)}$ (令 $h^{(0)}$ =x)。我们的网络可以表示为：

在这里插入图片描述
层：记作t
l：损失函数（即预测的要进行优化的目标函数）
y：y不是预测，还包括损失函数

计算损失l关于参数 $w^{(t)}$ 的梯度。

在这里插入图片描述

数值稳定性的常见两个问题

在这里插入图片描述

例子：MLP

加入如下MLP（为了简单省略了偏移）（即MLP：多层感知机的模型）

在这里插入图片描述
首先对激活函数进行求导，它是一个按元素的一个函数，所以对它的求导就变成一个diag(对角)矩阵

在这里插入图片描述

梯度爆炸

使用ReLU作为激活函数
在这里插入图片描述

通过（元素为0和1的）对角矩阵与相乘，那么意味着把某一列留住了，要么把它全变为0。

在这里插入图片描述是指那些没有变成0的那一列的乘法

如果d-t很大，值将会很大。（意思是网络比较深的话，那么它的值会比较大，因为里面全是w的元素，假设每个w的元素都是大于1的话，而且层数比较大的情况下，那么就会有非常大的值。）

梯度爆炸的问题

值超出值域(infinity)
对于16位浮点数尤为严重（数值区间为(6e-5，6e-4)）

对学习率敏感
如果学习率太大→大参数值→更大的梯度
（如果学习率太大，那么就会带来比较大的参数值，因为每一步走的比较远，那么权重会变的比较大，权重变大对应的梯度更大（这里的梯度即：权重的乘法））在这里插入图片描述

如果学习率太小→训练无进展
我们可能需要在训练过程不断调整学习率。

梯度消失

使用sigmoid作为激活函数
在这里插入图片描述

当激活函数的输入稍微大一点时，它的导数就变为接近0，连续n个接近0的数相乘，最后的梯度就接近0，梯度就消失了。

梯度消失的问题

梯度值变成0
对16位浮点数尤为严重

训练没有进展
不管如何选择学习率
（梯度为0，不管学习率如何变都不会有进展，权重=学习率*梯度）

对于比较深的网络的时候，对于底层尤为严重
仅仅顶部层训练的较好
无法让神经网络更深

总结

当数值过大或者过小时会导致数值问题。
常发生在深度模型中，因为其会对n个数累乘。

模型初始化和激活函数

让训练更加稳定

在这里插入图片描述
目标：让梯度值在合理的范围内
    例如：[1e-6,1e3]
将乘法变加法
    ResNet，LSTM
归一化
    梯度归一化，梯度裁剪
合理的权重初始和激活函数

让每层的方差是一个常数

将每层的输出和梯度都看做随机变量
让它们的均值和方差都保持一致

在这里插入图片描述

权重初始化

在合理值区间里随机初始参数
训练开始的时候更容易有数值不稳定
远离最优解的地方损失函数表面可能很复杂（比较陡，说明梯度越大）
最优解附近表面会比较平
使用N(0,0.01)来初始可能对小网络没问题，但不能保证深度神经网络。

在这里插入图片描述

正向均值和方差

例子：MLP
假设
在这里插入图片描述（即：权重是一个独立同分布(Independent identical distribution)，代表的意思是权重的第t层第i行第j列，那么均值等于0，方差等于 $γ_t$ ,t为其层数。
t-1层的输入独立于当前的权重。
）

正向均值

在这里插入图片描述

正向方差

方差=平方的期望-期望的平方
在这里插入图片描述

方差= 在这里插入图片描述平方项的均值-均值的平方。
其中为0.

在这里插入图片描述全独立，每个的均值为0，

在这里插入图片描述和的均值为0，这两项就等价于其方差。
题设：
其中对j进行求和，j的取值就是[0,t-1]
$n_{t-1}$ 是第t-1层的维度数

反向均值和方差

在这里插入图片描述

Xavier初始

在这里插入图片描述

正向和反向的均值和方差（书上）

正向均值和方差

假设：

在这里插入图片描述

与相互独立
在这种情况下，我们可以按如下方式计算 o_i 的平均值和方差：

保持方差不变（）的一种方法是设置

反向均值和方差

假设：
在这里插入图片描述

可以看到，除非在这里插入图片描述
否则梯度的方差可能会增大，其中是该层的输出的数量。这使得我们进退两难：我们不可能同时满足这两个条件。相反，我们只需满足：

在这里插入图片描述或等价于

通常，Xavier初始化从均值为零，方差在这里插入图片描述的高斯分布中采样权重。
我们也可以将其改为选择从均匀分布中抽取权重时的方差。注意均匀分布的方差为。将代入到的条件中，将得到初始化值域：

在这里插入图片描述

从线性的激活函数的角度提升数值稳定性

正向

在这里插入图片描述

反向

在这里插入图片描述

由以上推理可知：从激活函数的角度保持每层的输入和输出的均值和方差不变，必须使得激活函数在这里插入图片描述

检查常用激活函数

在这里插入图片描述

总结

合理的权重初始值和激活函数的选取可以提升数值稳定性。

问题

①nan（not a number）和inf是怎么产生的以及怎么解决吗？
inf是太大了，权重初始没更新
nan是除0产生的。
解决：合理初始化权重、学习率、激活函数

②在训练的过程中，如果网络层的输出层特征元素的值突然变成nan了，是发生了梯度爆炸了吗？还是有什么其它可能的原因？
对，一般来说nan就是梯度太大造成的，所以一般是梯度的问题

③梯度消失可以说是因为使用了sigmoid激活函数引起的对吗？所以我们可以用ReLU替换sigmoid解决梯度消失的问题吗？
不对，梯度消失有很多可能因素，不一定是sigmoid引起的。ReLU替换sigmoid可以让梯度消失的概率减少。

④为什么乘法变加法可以让训练更稳定？
100个1.5乘在一起梯度会炸，但100个1.5相加没问题。

⑤使用resnet为什么还会出现数值稳定性问题？
只能缓解问题不能解决问题。

http://www.ppmy.cn/devtools/91219.html

相关文章

【教师秘籍】AI预测学生未来？职场规划大揭秘！

【教师秘籍】AI预测学生未来？职场规划大揭秘！

声明：此篇为 ai123.cn 原创文章，转载请标明出处链接：https://ai123.cn/2150.html 嘿老师们，你们有没有和我一样的烦恼：学生各有千秋，家长各有各的操心，信息一箩筐却总是不够用？&am…

阅读更多...

使用 NumPy 生成随机数：一个全面的指南

使用 NumPy 生成随机数：一个全面的指南

NumPy 是 Python 编程语言中最流行的科学计算库之一，它提供了一个强大的 np.random 模块，用于生成各种类型的随机数。在本文中，我们将详细介绍如何使用 NumPy 生成随机数，包括正数、负数、整数和小数，并展示如何限制它…

阅读更多...

Linux系统使用Docker安装RStudio服务并实现任意浏览器远程访问

Linux系统使用Docker安装RStudio服务并实现任意浏览器远程访问

文章目录前言1. 安装RStudio Server2. 本地访问3. Linux 安装cpolar4. 配置RStudio server公网访问地址5. 公网远程访问RStudio6. 固定RStudio公网地址前言 RStudio Server 使你能够在 Linux 服务器上运行你所熟悉和喜爱的 RStudio IDE，并通过 Web 浏览器进行访问…

阅读更多...

Spring统一功能处理：拦截器、响应与异常的统一管理

Spring统一功能处理：拦截器、响应与异常的统一管理

目录一.拦截器二.统一数据返回格式三.统一异常处理一.拦截器拦截器是Spring框架提供的核⼼功能之⼀，主要⽤来拦截⽤⼾的请求，在指定⽅法前后，根据业务需要执⾏预先设定的代码。也就是说，允许开发⼈员提前预定义⼀些逻辑…

阅读更多...

JavaEE-多线程编程定时器（多线程完结篇）

JavaEE-多线程编程定时器（多线程完结篇）

定时器就是闹钟的效果，指定要一个任务（runnable），指定一个时间，此时这个任务不会立马去执行，而是时间到了才会去执行，这个过程称为——定时执行/延时执行。日常开发中定时执行是一个非常重要的…

阅读更多...

共享`pexlinux`数据文件的网络服务

共享`pexlinux`数据文件的网络服务

实验环境准备： 1.红帽7主机 2.要全图形安装 3.配置网络为手动，配置网络可用 4.关闭vmware DHCP功能一、kickstart自动安装脚本制作 1.安装图形化生成kickstart自动脚本安装工具 2.启动图形制作工具 3.图形配置脚本这里使用的共享方式是http&#xff0…

阅读更多...

Three 【3D车模换肤】

Three 【3D车模换肤】

目录 🌟前言🌟先看效果🌟实现代码🌟写在最后 🌟前言哈喽小伙伴们，最近工作比较忙一直没有给大家更新，新的专栏 Three.js第三篇，记录一下博主学习Three.js的过程；一起来…

阅读更多...

新能源电驱动总成龙头『英搏尔』×企企通，采购数字化助力企业绿色供应链管理

新能源电驱动总成龙头『英搏尔』×企企通，采购数字化助力企业绿色供应链管理

近日，珠海英搏尔电气股份有限公司（以下简称“英搏尔”）联合企企通成功举办SRM项目启动会，双方企业高层、相关部门负责人及项目组成员参加了此次启动会。会上，双方就英搏尔的数字化采购管理平台建设方案、实施计划、团…

阅读更多...

最新文章