跟着李沐老师学习深度学习（八）

数值稳定性 + 模型初始化和激活函数

数值稳定性

神经网络的梯度

考虑如下d层的神经网络（t代表层）
计算损失 l 关于参数 Wt 的梯度：

在这里插入图片描述
这样的矩阵乘法带来的问题：
（1）梯度爆炸
（2）梯度消失

在这里插入图片描述

例子：MLP

加入如下MLP（省略偏移）

进行累乘：

(1) 梯度爆炸

使用ReLU 作为激活函数

假设W中的值都大于1，那么会得到很大的值（梯度爆炸）
梯度爆炸的问题
- 值超出值域(infinity)
  - 对于 16位浮点数尤为严重(数值区间 6e-5-6e4)
- 对学习率敏感
  - 如果学习率太大 ->大参数值 ->更大的梯度
  - 如果学习率太小->训练无进展
  - 我们可能需要在训练过程不断调整学习率

(2) 梯度消失

使用 sigmoid作为激活函数

当输入相对较大的时候，激活函数的导数会变成0；
梯度消失的问题
- 梯度值变成 0
  - 对 16 位浮点数尤为严重
- 训练没有进展
  - 不管如何选择学习率
- 对于底部层尤为严重
  - 仅仅顶部层训练的较好
  - 无法让神经网络更深（和一个很浅的神经网络没有区别）
    （反向传播，更新参数，w越来越小，最终趋于零，也失去了学习的必要）

总结

当数值过大或者过小时会导致数值问题
常发生在深度模型中，因为其会对n个数累乘

让训练更加稳定

目标:让梯度值在合理的范围内，例如[le-6,1e3]

将乘法变加法
- ResNet, LSTM
归一化：将梯度变成均值为0，方差为1
- 梯度归一化，梯度裁剪
合理的权重初始和激活函数

模型初始化和激活函数

让每层的方差是一个常数

将每层的输出和梯度都看做随机变量
让它们的均值和方差都保持一致

t: 第t层；i: 第i个变量

假设：我们想要的输出如下：所有的输出和梯度的均值、方差都在一个常数
在这里插入图片描述

权重初始化

在合理值区间里随机初始参数
训练开始的时候更容易有数值不稳定
- 远离最优解的地方损失函数表面可能很复杂
- 最优解附近表面会比较平
使用 N(0,0.01)来初始可能对小网络没问题，但不能保证深度神经网络

如何保证之前的假设成立呢？

例子：MLP

假设：

i.i.d：独立同分布；均值E为0，Var方差为一个常数；当前层的权重和当前层的输入是一个独立事件。
假设没有激活函数：

实现的目标中的正向方差：

在这里插入图片描述

【方差公式】方差等于平方的期望减去期望的平方：方差D(X)=E(X^ 2)-E(X)^2
对于和的平方等价于每一项的平方+不相等的交叉项的乘积和
第二行的加号后面的累加为0的原因是：之前假设了wt_i,j是独立的同分布（即 i.i.d），那么w_t_i,j的均值就为0，即E（wti,j）=0，即 E（第二行第二项）=0
方差 = 平方的期望 - 期望的平方现在期望的平方等于0，所以方差 = 平方的期望，可得到第四行
n_t-1：当前第t层的输入的维度

接下来看反向的均值和方差
注意： (AB)转置=B转置xA转置
和正向类似，老师并没有细推：
在这里插入图片描述
Xavier初始化：（常用的权重初始化的方法）
基于该方式对某层权重初始化时，该层权重的初始化会根据该层的输入维度、输出维度来决定（如权重的方差），尤其是当输入输出维度不一定、或网络变化比较大时，可以根据输入输出维度来适配权重，使得输出的方差和梯度都在恒定（合理）的范围内
在这里插入图片描述
满足正向和反向的条件很难，但可以取一个折中的方法：即给定当前第t层的输入维度nt-1和输出维度nt的大小，那么就可以由这俩得到当前第t层的权重的方差γt。

假设线性的激活函数（只是为了简单理论分析，实际上不可能用线性的激活函数））
在这里插入图片描述
这就说明：为了使正向的输出为均值为0、方差为固定值，则要求线性激活函数的α=1、β=0，即为输入x本身；
反向，与正向类似：

也说明：激活函数必须是f(x)=x；

最后，检查真正的激活函数（因为激活函数都是非线性的，而上面是以线性激活函数举例的），如使用泰勒展开：
可以发现下图中tanh和relu在原点处基本都是f(x)=x，虽然sigmoid不过原点，但经过调整后的sigmoid（如下图中蓝线，即乘四再减二后）也是过原点且在原点处近似为f(x)=x（即经过调整后的sigmoid函数也能解决以前原sigmoid存在的问题）
请添加图片描述
为何只关注在0点附近的表现是否能满足f(x)=x的要求：因为一般神经网络的权重w的取值都是在0附近的。

QA

问题：nan、inf如何产生，以及怎么解决？
inf：就是太大，即一般是lr太大或 权重初始化时太大了
nan一般是除0了
- 解决：
  合理初始化权重（权重的初始一般均值为0，方差小一点，当能出现正确的值之后再慢慢调大权重（的方差）使得训练有进展）
  选择合适的激活函数、选择合适大小的lr（一般是把lr一直往小调直到inf、nan不出现）
问题：使用ReLU激活函数是如何做到拟合x平方或者三次方这种曲线的?
不是单独的relu来拟合，而是relu+学习到的权重w 共同作用（只是基于relu提供非线性的特性）
问题：梯度消失可以说是因为使用了sigmoid激活函数引起的对吗?所以我们可以用ReLU替换sigmoid解决梯度消失的问题?
梯度消失产生的原因有很多种，sigmoid只是其中的一种可能
用ReLU替换可以降低产生梯度消失的概率，但不确保一定能完全解决
问题：梯度爆炸是由什么激活函数引起的吗?
爆炸的产生和激活函数无关，一般都是由每层的输出太大然后多个层累乘引起的
问题：resnet还是会出现数值稳定性?
各种技术都是在缓解、减轻问题，但不是完全解决，用ResNet只是会让数值稳定性更好一点（整个深度学习的进展都是在让数值更加稳定）

总结

合理的权重初始值和激活函数的选取可以提升数值稳定性