RNN中远距离时间步梯度消失问题及解决办法

RNN 远距离时间步梯度消失问题
LSTM如何解决远距离时间步梯度消失问题

RNN 远距离时间步梯度消失问题

经典的RNN结构如下图所示：
在这里插入图片描述
假设我们的时间序列只有三段， $S_{0}$ 为给定值，神经元没有激活函数，则RNN最简单的前向传播过程如下：

$S_{1} = W_{x} X_{1} + W_{s}S_{0} + b_{1}，O_{1} = W_{0} S_{1} + b_{2}$

$S_{2} = W_{x} X_{2} + W_{s}S_{1} + b_{1}，O_{2} = W_{0} S_{2} + b_{2}$

$S_{3} = W_{x} X_{3} + W_{s}S_{2} + b_{1}，O_{3} = W_{0} S_{3} + b_{2}$

假设在 $t = 3$ 时刻，损失函数为 $L_3 = \frac{1}{2}(Y_3 - O_3)^2$ 。则对于一次训练任务的损失函数为 $\sum_{t=0}^{T} L_t$ ，即每一时刻损失值的累加。

使用随机梯度下降法训练RNN其实就是对 $W_x$ 、 $W_s$ 、 $W_o$ 以及 $b_1 、 b_2$ 求偏导，并不断调整它们以使 $L$ 尽可能达到最小的过程。

现在假设我们我们的时间序列只有三段：t1，t2，t3。我们只对 $t 3$ 时刻的 $W_x$ 、 $W_s$ 、 $W_o$ 求偏导（其他时刻类似）：

$\frac{\partial L_3}{\partial W_0} = \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial W_o} = \frac{\partial L_3}{\partial O_3} S_3$

$\frac{\partial L_3}{\partial W_x} = \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial W_x} + \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial S_2} \frac{\partial S_2}{\partial W_x} + \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial S_2} \frac{\partial S_2}{\partial S_1} \frac{\partial S_1}{\partial W_x} = \frac{\partial L_3}{\partial O_3} W_0 (X_3 + S_2 W_s + S_1 W_s^2)$

$\frac{\partial L_3}{\partial W_s} = \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial W_s} + \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial S_2} \frac{\partial S_2}{\partial W_s} + \frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial S_2} \frac{\partial S_2}{\partial S_1} \frac{\partial S_1}{\partial W_s} = \frac{\partial L_3}{\partial O_3} W_0 (S_2 + S_1 W_s + S_0 W_s^2)$

关于上面这个多元复合函数链式求导过程，通过如下对变量层级树的遍历可以更加直观理解这一点:
在这里插入图片描述
可以看出对于 $W_o$ 求偏导并没有长期依赖，但是对于 $W_x$ 、 $W_s$ 求偏导，会随着时间序列产生长期依赖。因为 $S_t$ 随着时间序列向前传播，而 $S_t$ 又是 $W_x$ 、 $W_s$ 的函数。

根据上述求偏导的过程，我们可以得出任意时刻对 $W_x$ 、 $W_s$ 求偏导的公式：

$\frac{\partial L_t}{\partial W_x} = \sum_{k=0}^{t} \frac{\partial L_t}{\partial O_t} \frac{\partial O_t}{\partial S_t} \left(\prod_{j=k+1}^{t} \frac{\partial S_j}{\partial S_{j-1}}\right) \frac{\partial S_k}{\partial W_x}$

任意时刻对 $W_s$ 求偏导的公式同上。

如果加上激活函数： $S_j = \tanh(W_x X_j + W_s S_{j-1} + b_1)$

则 $\prod_{j=k+1}^{t} \frac{\partial S_j}{\partial S_{j-1}} = \prod_{j=k+1}^{t} \tanh' W_s$

加上激活函数tanh复合后的多元链式求导过程如下图所示:

在这里插入图片描述

激活函数tanh和它的导数图像如下。

在这里插入图片描述

由上图可以看出 $\tanh' \leq 1$ ，对于训练过程大部分情况下tanh的导数是小于1的，因为很少情况下会出现 $W_x X_j + W_s S_{j-1} + b_1 = 0$ ，如果 $W_s$ 也是一个大于0小于1的值，则当t很大时 $\prod_{j=k+1}^{t} \tanh' W_s$ ，就会趋近于0，和 $0.01^{50}$ 趋近于0是一个道理。同理当 $W_s$ 很大时 $\prod_{j=k+1}^{t} \tanh' W_s$ 就会趋近于无穷，这就是RNN中梯度消失和爆炸的原因。

至于怎么避免这种现象，再看看 $\frac{\partial L_t}{\partial W_x} = \sum_{k=0}^{t} \frac{\partial L_t}{\partial O_t} \frac{\partial O_t}{\partial S_t} \left(\prod_{j=k+1}^{t} \frac{\partial S_j}{\partial S_{j-1}}\right) \frac{\partial S_k}{\partial W_x}$ 梯度消失和爆炸的根本原因就是 $\prod_{j=k+1}^{t} \frac{\partial S_j}{\partial S_{j-1}}$ 这一坨，要消除这种情况就需要把这一坨在求偏导的过程中去掉，至于怎么去掉，一种办法就是使 $\frac{\partial S_j}{\partial S_{j-1}} \approx 1$ 另一种办法就是使 $\frac{\partial S_j}{\partial S_{j-1}} \approx 0$ 。其实这就是LSTM做的事情。

总结:

RNN 的梯度计算涉及到对激活函数的导数以及权重矩阵的连乘
- 以 sigmoid 函数为例，其导数的值域在 0 到 0.25 之间，当进行多次连乘时，这些较小的值相乘会导致梯度迅速变小。
- 如果权重矩阵的特征值也小于 1，那么在多个时间步的传递过程中，梯度就会呈指数级下降，导致越靠前的时间步，梯度回传的值越少。
由于梯度消失，靠前时间步的参数更新幅度会非常小，甚至几乎不更新。这使得模型难以学习到序列数据中长距离的依赖关系，对于较早时间步的信息利用不足，从而影响模型的整体性能和对序列数据的建模能力。

$注意 :$

RNN梯度爆炸好理解，就是 $\frac{\partial L_t}{\partial W_x}$ 梯度数值发散，甚至慢慢就NaN了；

那梯度消失就是 $\frac{\partial L_t}{\partial W_x}$ 梯度变成零吗？

并不是，我们刚刚说梯度消失是 $\left|\frac{\partial S_j}{\partial S_{j-1}}\right|$ 一直小于1，历史梯度不断衰减，但不意味着总的梯度就为0了。RNN中梯度消失的含义是：距离当前时间步越长，那么其反馈的梯度信号越不显著，最后可能完全没有起作用，这就意味着RNN对长距离语义的捕捉能力失效了。

说白了，你优化过程都跟长距离的反馈没关系，怎么能保证学习出来的模型能有效捕捉长距离呢？

再次通俗解释一下RNN梯度消失，其指的不是 $\frac{\partial L_t}{\partial W_x}$ 梯度值接近于0，而是靠前时间步的梯度 $\frac{\partial L_3}{\partial O_3} \frac{\partial O_3}{\partial S_3} \frac{\partial S_3}{\partial S_2} \frac{\partial S_2}{\partial S_1} \frac{\partial S_1}{\partial W_x}$ 值算出来很小，也就是靠前时间步计算出来的结果对序列最后一个预测词的生成影响很小，也就是常说的RNN难以去建模长距离的依赖关系的原因；这并不是因为序列靠前的词对最后一个词的预测输出不重要，而是由于损失函数在把有用的梯度更新信息反向回传的过程中，被若干小于0的偏导连乘给一点点削减掉了。

LSTM如何解决远距离时间步梯度消失问题

在这里插入图片描述

LSTM的更新公式比较复杂，它是：

$f_t = \sigma (W_f x_t + U_f h_{t-1} + b_f)$
$i_t = \sigma (W_i x_t + U_i h_{t-1} + b_i)$
$o_t = \sigma (W_o x_t + U_o h_{t-1} + b_o)$
$\hat{c}_t = \tanh (W_c x_t + U_c h_{t-1} + b_c)$
$c_t = f_t \circ c_{t-1} + i_t \circ \hat{c}_t$
$h_t = o_t \circ \tanh(c_t) \qquad$

我们可以像上面一样计算 $\frac{\partial h_t}{\partial h_{t-1}}$ ，但从 $h_t = o_t \circ \tanh(c_t)$ 可以看出分析 $c_t$ 就等价于分析 $h_t$ ，而计算 $\frac{\partial c_t}{\partial c_{t-1}}$ 显得更加简单一些，因此我们往这个方向走。

同样地，我们先只关心1维的情形，这时候根据求导公式，我们有

$\frac{\partial c_t}{\partial c_{t-1}} = f_t + c_{t-1} \frac{\partial f_t}{\partial c_{t-1}} + \hat{c}_t \frac{\partial i_t}{\partial c_{t-1}} + i_t \frac{\partial \hat{c}_t}{\partial c_{t-1}} \qquad$

右端第一项 $f_t$ ，也就是我们所说的“遗忘门”，从下面的论述我们可以知道一般情况下其余三项都是次要项，因此 $f_t$ 是“主项”，由于 $f_t$ 在0～1之间，因此就意味着梯度爆炸的风险将会很小，至于会不会梯度消失，取决于 $f_t$ 是否接近于1。但非常碰巧的是，这里有个相当自洽的结论：如果我们的任务比较依赖于历史信息，那么 $f_t$ 就会接近于1，这时候历史的梯度信息也正好不容易消失；如果 $f_t$ 很接近于0，那么就说明我们的任务不依赖于历史信息，这时候就算梯度消失也无妨了。

所以，现在的关键就是看“其余三项都是次要项”这个结论能否成立。后面的三项都是“一项乘以另一项的偏导”的形式，而且求偏导的项都是 $\sigma$ 或 $\tanh$ 激活， $\sigma$ 和 $\tanh$ 的偏导公式基本上是等价的，它们的导数均可以用它们自身来表示：

$\tanh x = 2\sigma(2x) - 1$
$\sigma(x) = \frac{1}{2} \left( \tanh \frac{x}{2} + 1 \right) \qquad$
$tanh x)' = 1 - \tanh^2 x$
$\sigma'(x) = \sigma(x) (1 - \sigma(x))$

其中 $\sigma(x) = 1/(1 + e^{-x})$ 是sigmoid函数。

因此后面三项是类似的，分析了其中一项就相当于分析了其余两项。以第二项为例，代入 $h_{t-1} = o_{t-1} \tanh(c_{t-1})$ ，可以算得

$c_{t-1} \frac{\partial f_t}{\partial c_{t-1}} = f_t (1 - f_t) o_{t-1} (1 - \tanh^2 c_{t-1}) c_{t-1} U_f \qquad$

注意到 $f_t, 1 - f_t, o_{t-1}$ 都是在0～1之间，也可以证明 $1 - \tanh^2 c_{t-1}) c_{t-1}| < 0.45$ ，因此它也在-1～1之间。所以 $c_{t-1} \frac{\partial f_t}{\partial c_{t-1}}$ 就相当于1个 $U_f$ 乘上4个门，结果会变得更加小，所以只要初始化不是很糟糕，那么它都会被压缩得相当小，因此占不到主导作用。

剩下两项的结论也是类似的：

$\hat{c}_t \frac{\partial i_t}{\partial c_{t-1}} = i_t (1 - i_t) o_{t-1} (1 - \tanh^2 c_{t-1}) \hat{c}_t U_i \qquad$

$i_t \frac{\partial \hat{c}_t}{\partial c_{t-1}} = (1 - \hat{c}_t^2) o_{t-1} (1 - \tanh^2 c_{t-1}) i_t U_c$

所以，后面三项的梯度带有更多的“门”，一般而言乘起来后会被压缩的更厉害，因此占主导的项还是 $f_t$ ， $f_t$ 在0～1之间这个特性决定了它梯度爆炸的风险很小，同时 $f_t$ 表明了模型对历史信息的依赖性，也正好是历史梯度的保留程度，两者相互自洽，所以LSTM也能较好地缓解梯度消失问题。因此，LSTM同时较好地缓解了梯度消失/爆炸问题，现在我们训练LSTM时，多数情况下只需要直接调用Adam等自适应学习率优化器，不需要人为对梯度做什么调整了。