一般神经网络的微分与网络参数的初始化

(文章的主要内容来自电科的顾亦奇老师的 Mathematical Foundation of Deep Learning, 有部分个人理解)

一般深度网络>神经网络的微分

上周讨论的前向和反向传播算法可以推广到任意深度网络>神经网络的微分。
对于一般的网络来说，可能无法逐层分割，但仍然可以用流图来表示。因此，反向传播是通过从输出神经元开始、向后传递信息并在输入处结束来执行的。

更准确地说，给定从 $\mathbb{R}^{d}$ 到 $\mathbb{R}$ 的网络>神经网络 $f (x; θ)$ 映射图，假设总共有 K 个神经元，我们用 $x_1, \dots ,x_d$ 和 $N_{d+1}, \dots ,N_{d+K}$ 标记输入。为了方便起见，神经元被标记为使得有向边总是从小索引到大索引。

我们用 $w_{i,j}$ 表示从神经元 $N_i$ （或输入 $x_i$ ）到神经元 $N_j$ 的边的权重。令 $P_j$ 为由神经元 $N_j$ 的直接前驱的索引组成的集合 $(d + 1 \leq j \leq d + K)$ 。类似地，令 $S_j$ 为由顶点 $x_j$ 或 $N_j$ 的直接后继索引组成的集合 $(1 \leq j < d + K)$ 。例如，在图 2.10 中， $P_7 = \{2,3,5,6\}$ ， $S_7 = \{9,10,11\}$ 。
在这里插入图片描述
现在，对于任何 $1 \leq j \leq d + K$ ，假设以下计算发生在 $N_j$ :
$\sigma _ { j } ( q _ { j } ) , \text{ } \text{ } q _ { j } = \sum _ { k \in P _ { j } } w _ { k , j } y _ { k } + b _ { j } , \text{for }\text{ } d + 1 \leq j \leq d + K . \tag{2.27}$

$\text{ }\text{ }\text{for }\text{ } 1 \leq j \leq d . \tag{2.28}$
其中 $σ_j$ 和 $b_j$ 是 $N_j$ 的激活函数和偏差。
恒等式（2.28）仅仅是为了符号方便。
请注意， $y_j$ 表示顶点 $N_j$ 或 $x_j$ 的输出值。
我们可以使用一种流程图来表示这个过程:
在这里插入图片描述

另外，我们将 $p _ { j }$ 表示为 $\frac { \partial f ( x ; \theta ) } { \partial q _ { j } }$ 表示为 $d + 1 \leq j \leq d + K$ .
使用链式法则，如果 $i ∈ S_j$ ，我们有 (对于节点 $N_j$ , f对其任意一个入度边 $w_{i,j}$ 偏导表示) (这里 $y_i$ 表示某个前导节点)
$\frac { \partial f ( x ; \theta ) } { \partial w _ { i , j } } = \frac { \partial f ( x ; \theta ) } { \partial q _ { j } } \cdot \frac { \partial q _ { j } } { \partial w _ { i , j } } = p _ { j } \cdot y _ { i \cdot } \tag{2.29}$ $\frac { \partial f ( x ; \theta ) } { \partial b _ { j } } = \frac { \partial f ( x ; \theta ) } { \partial q _ { j } } \cdot \frac { \partial q _ { j } } { \partial b _ { j } } = p _ { j } . \tag{2.30}$
另外, $p_j$ 也可通过 $\frac { \partial f ( x ; \theta ) } { \partial q _ { j } } = \sum _ { k \in S _ { j } } \frac { \partial f ( x ; \theta ) } { \partial q _ { k } } \cdot \frac { \partial q _ { k } } { \partial y _ { j } } \cdot \frac { d y _ { j } } { d q _ { j } } \\ = \sigma _ { j } ^ { \prime } ( q _ { j } ) \cdot \sum _ { k \in S _ { j } } p _ { k } \cdot w _ { j , k } \text{ }\text{ }\text{ }\text{for }\text{ } d + 1 \leq j < d + K .\tag{2.32}$ 来计算.

同时, 我们有
$\frac { \partial f ( x ; \theta ) } { \partial x _ { j } } = \sum _ { k \in S _ { j } } \frac { \partial f ( x ; \theta ) } { \partial q _ { k } } \cdot \frac { \partial q _ { k } } { \partial y _ { j } } \cdot \frac { \partial y _ { j } } { \partial x _ { j } }\tag{2.33}$
因此，我们可以首先实现前向传播 (2.27)-(2.28)，它传递来自输入 $x_1, \dots, x_d$ 的信息到输出神经元 $N_{d+K}$
在此阶段，我们从小到大地计算并保存 $1,\dots, d+K$ 时的 ${y_j\}$ 和 ${q_j\}$ 。
接下来，我们实现反向传播 (2.29)-(2.32)，它从 $N_{d+K}$ 传递到输入。具体来说，我们依照 $d+K-1,\dots, d+1$ 计算 ${p_j\}$ 、 $\left\{ \frac { \partial f ( x ; \theta ) } { \partial w _ { i , j} } \right\} _ { i \in P j }$ 和 $\left\{ \frac { \partial f ( x ; \theta ) } { \partial b_j} \right\}$ . 最终, $1,\dots, d$ 时的 $\left\{ \frac { \partial f ( x ; \theta ) } { \partial x_j} \right\}$ 可被公式(2.33)计算
在这里插入图片描述

由路径制定的导数

更一般地，我们可以制定导数的封闭形式。
在图论意义上，将 $\mathcal{P}(j, n_1, n_2, \dots, n_k, d + K)$ 表示为从顶点 $N_j$ 或 $x_j$ 通过神经元 $N_{n_1}, N_{n_2}, \dots, N_{n_k}$ 到输出神经元 $N_{d+K}$ 的路径。
然后根据链式法则，对于任何 $d + 1 \leq j \leq d + K$ 且 $i ∈ P_j$ ，有
$\frac { \partial f ( x ; \theta ) } { \partial w _ { i , j } } = y _ { i } \cdot \sum _ { \mathcal{P} ( j , n _ { 1 } , n _ { 2 } , \ldots , n _ { k } , d + K ) } \sigma _ { j } ^ { \prime } ( q _ { j } ) \cdot w _ { j , n _ { 1 } } \cdot \sigma _ { n _ { 1 } } ^ { \prime } ( q _ { n _ { 1 } } ) \cdot w _ { n _ { 1 } , n _ { 2 } } \cdot \sigma _ { n _ { 2 } } ^ { \prime } ( q _ { n _ { 2 } } ) \cdots w _ { n _ { k }, d+K } \cdot \sigma _ { d + K } ^ { \prime } ( q _ { d + K } ) ,\tag{2.34}$ 其中对从节点 $N_j$ 到 $N_{d+K}$ 的所有路径进行求和。类似地，对于 $1 \leq j \leq d$ ，有:
$\frac { \partial f ( x ; \theta ) } { \partial x_ j } = \sum _ { \mathcal{P} ( j , n _ { 1 } , n _ { 2 } , \ldots , n _ { k } , d + K ) } \sigma _ { j } ^ { \prime } ( q _ { j } ) \cdot w _ { j , n _ { 1 } } \cdot \sigma _ { n _ { 1 } } ^ { \prime } ( q _ { n _ { 1 } } ) \cdot w _ { n _ { 1 } , n _ { 2 } } \cdot \sigma _ { n _ { 2 } } ^ { \prime } ( q _ { n _ { 2 } } ) \cdots w _ { n _ { k }, d+K } \cdot \sigma _ { d + K } ^ { \prime } ( q _ { d + K } ) ,$ 其中对从 $x_j$ 到 $N_{d+K}$ 的所有路径进行求和.

假设 $f (x; θ)$ 的所有激活函数都是 sigmoid 函数。请注意，如果中间变量 $q_i$ 的模 $q_i|$ 较大，则 $σ^{\prime}_i (q_i)$ 项将接近于零。那么对于长路径，包含许多小乘数 $σ^{\prime}_i (q_i)$ 的右侧乘积将非常接近于零。因此，如果权重为 $w_{i,j}$ 的边距离输出神经元较远，则导数 $\frac { \partial f ( x ; \theta ) } { \partial w_{i , j} }$ 可能非常接近于零，甚至在实际计算中被机器精度下溢。

此外，假设我们有一个损失函数 $\mathcal{L}(f(x;θ))$ ，其中 $\mathcal{L}(\cdot)$ 是可微分的。当使用梯度下降法优化 $\mathcal{L}$ 时，我们计算的 $∇_{θ}\mathcal{L}$ 有以下分量： $\nabla _ { w _ { i , j } } \mathcal{L}= \mathcal{L}^ { \prime } ( f ( x ; \theta ) ) \cdot \frac { \partial f ( x ; \theta ) } { \partial w _ { i , j } } .$ 因此， $\frac { \partial f ( x ; \theta ) } { \partial w _ { i , j } }$ 的消失很可能会导致 $\nabla _ { w _ { i , j } } \mathcal{L}$ 的消失。在这种情况下，参数 $w_{i,j}$ 几乎无法通过梯度下降来改变，因此收敛速度会大大减慢。这种梯度消失的问题经常出现在使用 sigmoid 函数的深度神经元网络优化中。解决梯度消失问题的一种有效方法是使用残差网络>神经网络（ResNets）。

权重初始化

在网络层数较少的情况下，将所有权重和偏差初始化为零，或者从零均值的均匀分布或高斯分布中进行采样，通常会提供足够令人满意的收敛结果。然而，在深度网络>神经网络的情况下，权重的正确初始化会对最优算法的收敛方式产生显着影响。

权重太小/大可能会导致梯度消失或爆炸问题, 这可以从梯度表达式（2.34）中部分地认识到。
如果 $σ^{\prime}_j$ 是有限的并且权重 $w_{ji}$ 的值太小，则长路径的乘积将接近于零，从而导致梯度消失。
另一方面，对于 sigmoid 激活结果，如果 $w_{ji}|$ 较大， $\sum _ { k \in P _ { j } } w _ { k , j } y _ { k } + b _ { j }$ 也会很大，使得 $σ^{\prime}_j (q_j )$ 接近于零。

从前向传播的观点来看…

权重 $w_{ji}$ 如何的正确初始化?
现在假设信息通过前向传播从第 (ℓ − 1) 层传递到第 ℓ 层，即 $\ell } = \sigma _ { j } ^ { \ell} ( \sum _ { i = 1 } ^ { M _ { \ell - 1 } } w _ { j i } ^ { \ell } y _ { i } ^ {\ell - 1 } ) ,\tag{2.35}$
其中 j 是第 ℓ 层神经元的索引。这里我们省略了偏差 $b$ 。在实践中，偏差通常被初始化为零或均值为零的随机变量。为简单起见，我们假设 $\{w^ℓ_{ij}\}_{i,j}$ 和 $\{y^{ℓ−1}_i\}_i$ 是两组独立且同分布的均值为零的随机变量。
此外，在前向传播中， $y^{ℓ−1}_i$ 是通过先前的权重计算的，因此与当前的 $w^ℓ_{ij}$ 无关，因此它俩是相互独立的。

最终, 我们的目标是找到一种 $w^ℓ_{ij}$ 的分布，使得第 ℓ 层的输出与它的输入一样分散, 即 $\text{Var}(y^ℓ_j) = \text{Var}(y^{ℓ−1}_i )$ 。
我们首先引入以下结论

引理2.3: 如果 X 和 Y 是两个独立的随机变量且 $E [(X)] = E [(Y)] = 0$ ，则 $\text{Var}(XY ) = \text{Var}(X)\text{Var}(Y )$ 。
在这里插入图片描述
此外，令 $f$ 为可微函数。然后 $f (x)$ 在 $x = E [X]$ 处的线性近似给出 $\approx f ( E \left[ X \right] ) + f ^ { \prime } ( E \left[ X \right] ) ( x - E \left[ X \right] ) .$ 用随机变量 $X$ 替换变量 $x$ 会得到 $\approx f ( E \left[ X \right] ) + f ^ { \prime } ( E \left[ X \right] ) ( X - E \left[ X \right] ) .$ 因此, $\text{Var}( f ( X ) ) \approx \text{Var} ( f ^ { \prime } ( E \left[ X \right] ) ( X - E \left[ X \right] ) ) = f ^ { \prime } ( E \left[ X \right] ) ^ { 2 } \text{Var} ( X ) .$ 那么带入公式 (2.35) 的数值可知 ( $f\rightarrow\sigma$ , $X\rightarrow w _ { j i } ^ { \ell } y _ { i } ^ {\ell - 1 }$ , 且已知 $\ell }$ 和 ${\ell - 1 }$ 相互独立, 故 $\mathbb{E}(w _ { j i } ^ { \ell } y _ { i } ^ {\ell - 1 })$ 是可以分离的. 由假设可得, $\mathbb{E}(w _ { j i } ^ { \ell }) = \mathbb{E}( y _ { i } ^ {\ell - 1 })=0$ ):
在这里插入图片描述
(这里倒数第二个个式子到最后一个式子的原因, 我怀疑是在初始化中, 所有Weight的初始值都是相同的)
因为我们的目标是 $\text{Var}(y^ℓ_j) = \text{Var}(y^{ℓ−1}_i )$ , 因此需要 $\ell - 1 } ( ( \sigma _ { j } ^ {\ell} ) ^ { \prime } ( 0 ) ) ^ { 2 } \text{Var} ( w _ { j i } ^ { \ell } ) = 1$ 故有:
$\text{Var}( w ^ { \ell } _ { j i } ) = \frac { 1 } { M _ { \ell - 1 } \left( ( \sigma ^ { \ell } _ { j } ) ^ { \prime } ( 0 ) \right) ^ { 2 } } \tag{2.37}$

因此，我们得到两个有用的结论：

如果 $w^{\ell}_{ji}$ 是从正态分布中得出的, 那么 $\ell } \sim \mathcal{N} ( 0 , \frac { 1 } { M _ { \ell - 1 } ( ( \sigma _ { j } ^ { \ell } ) ^ { \prime } ( 0 ) ) ^ { 2 } } )$
如果 $w^{\ell}_{ji}$ 是从均匀分布中得出的, 因为 $U [- a, a]$ 的方差是 $\frac{a^2}{3}$ , 所以有 $\ell } \sim U \left[ - \frac { \sqrt { 3 } } { \sqrt { M _ { \ell - 1 } ( \sigma _ { j } ^ { \prime } ) ^ { \prime } ( 0 ) } } , \frac { \sqrt { 3 } } { \sqrt { M _ { \ell- 1 } ( \sigma _ { j } ^ { \ell} ) ^ { \prime } ( 0 ) } } \right]$

可以发现, 如果要实现网络两层输出值的方差一致, 只需要保证它们之间的边权的初始化服从上述分布即可.
同时, 通过观察方差本身的构成, 我们可以发现这种方差只与 “第一层的结点个数” 和 “第二层的激活函数在0处的导数” 有关.
在这里插入图片描述

从反向传播的观点来看…

另一种策略是从反向传播的角度推导的，也称为 Xavier 初始化 [5]。
我们预计: $\text{Var}( \frac { \partial f ( x ; \theta ) } { \partial w _ { i j } ^ { \ell - 1 } } ) = \text{Var} ( \frac { \partial f ( x ; \theta ) } { \partial w _ { i j } ^ { \ell } } )\tag{2.38}$

我们假设 $\{a_i , w^ℓ_{ji}\}_{i,j,ℓ}$ 中的所有权重都是独立且均值为零的同分布随机变量。另外，我们假设所有激活函数都是恒等的，则关系式 (2.22)-(2.25) 为 $,\tag{2.39}$ $\ell - 1 } = \sum _ { j = 1 } ^ { M _ { \ell } } p _ { j } ^ { \ell } w _ { j i } ^ { \ell} , \text{ for }\ \ell= L , L - 1 , \ldots , 2 \tag{2.40}$

通过回溯递归, $p_j^\ell$ 是由 $\{w^{\ell+1}_{ji}\}_{i,j} \cup \cdots \cup \left\{ w _ { j i } ^ { L } \right\} _ { i , j } \cup \left\{ a _ { i } \right\} _ { i }$ 确定的而非独立的 $\{w^\ell_{ji}\}_{i,j}$ 和 $\{y^{\ell-1}\}_i$ (这俩者是 $p_j^\ell$ 左侧的边权和输出).
因此, $\ell }$ 与 $\ell }$ 之间是彼此独立的, 故: $\mathbb{E} \left[ \sum _ { j = 1 } ^ { M _ { \ell } } p _ { j } ^ { \ell } w _ { j i } ^ { \ell } \right] = \sum _ { j = 1 } ^ { M _ { \ell } } \mathbb{E} \left[ p _ { j } ^ { \ell } \right] \mathbb{E} \left[ w _ { j i } ^ { \ell } \right] = 0 ,$ 因为所有权重都是均值为零的同分布随机变量, 故 $\mathbb{E}[w_{ji}^{\ell}]=0$ , 由上式可得， $\mathbb{E}[p^{ℓ−1}_i] = 0$ ，类似地， $\mathbb{E}[p^ℓ_i] = 0$ .

此外，由于 $\ell } = \sum _ { i = 1 } ^ { M _ { \ell - 1 } } w _ { j i } ^ { \ell } y _ { i } ^ { \ell - 1 }$ 且 $w^ℓ_{ji}$ 与 $y^{ℓ−1}_i$ 无关 (前向传播的结论)，故 $\mathbb{E}[ y _ { j } ^ { \ell } ] = \sum _ { i = 1 } ^ { M _ { \ell - 1} } \mathbb{E} [ w _ { j i } ^ { \ell } ] \mathbb{E} [ y _ { i } ^ { \ell - 1 } ] = 0.$

类似地, $\mathbb{E}[y_j^{\ell-1}]=\mathbb{E}[y_j^{\ell-2}]=0$ .

现在，对于 $ℓ \geq 2$ ，通过(2.29)，目标(2.38)可被写为 $\text{Var}(p_j^{\ell-1}y_i^{\ell-2}) = \text{Var}(p^\ell_j y_i^{\ell-1})$
使用引理 2.3 令: $\text{Var}( p _ { j } ^ { \ell- 1 } ) \text{Var}( y _ { i } ^ { \ell- 2 } ) = \text{Var}( p _ { j } ^ { \ell} ) \text{Var}( y _ { i } ^ { \ell- 1 } ) .$

如上所述，我们还期望 $\text{Var}(y^{ℓ−2}_i ) = \text{Var}(y^{ℓ−1}_i)$ (基于前向传播的目标)，因此下式必须成立 $\text{Var}( p _ { j } ^ { \ell - 1 } ) = \text{Var}( p _ { j } ^ { \ell } ). \tag{2.41}$
对(2.40)进行取方差的操作, 即 $\text{Var}(\cdot)$ . 以及引入引理2.3. 可得:
$\text{Var} ( p _ { i } ^ { \ell - 1 } ) = \sum _ { j = 1 } ^ { M _ { \ell } } \text{Var}( p _ { j } ^ { \ell } ) \text{Var} ( w _ { j i } ^ { \ell } ) = M _ { \ell} \text{Var}( p _ { j } ^ { \ell } ) \text{Var}( w _ { j i } ^ { \ell} ) ,\tag{2.42}$
其中我们使用了 $\{p^ℓ_j\}_j$ 同分布这一事实。结合（2.41）和（2.42），我们有 $\text{Var} ( w _ { j i } ^ { \ell} ) = \frac { 1 } { M _ { \ell } } .\tag{2.43}$
关系式(2.43)表示 $w^ℓ_{ji}$ 的方差与第ℓ层的宽度成反比。相比之下，在线性激活函数的假设下，关系式（2.37）变为 $\text{Var} ( w _ { j i } ^ { \ell} ) = \frac { 1 } { M _ { \ell - 1 } } ,\tag{2.44}$
这意味着 $w^ℓ_{ji}$ 的方差与 ℓ−1 层的宽度成反比.

现在，只有在 $M_ℓ = M_{ℓ−1}$ 的情况下 (即当任意两个连续层的宽度相同时)，（2.43）和（2.44）同时满足。由于这个条件限制太多，一个有利可图的折衷方案是取两者的调和平均值，在这种情况下有 $\text{Var} ( w _ { j i } ^ { \ell } ) = \frac { 2 } { M _ { \ell } + M _ { \ell - 1 } } .$

再次, 我们得到两个具有实际意义的结论:

如果 $w^{\ell}_{ji}$ 是从正态分布中得出的, 那么 $\ell } \sim \mathcal{N} ( 0 , \frac { 2 } { M _ { \ell } + M _ { \ell - 1 } } )$
如果 $w^{\ell}_{ji}$ 是从均匀分布中得出的, 因为 $U [- a, a]$ 的方差是 $\frac{a^2}{3}$ , 所以有 $\ell } \sim U \left[ - \frac { \sqrt { 6 } } { \sqrt { M _ { \ell} + M _ { \ell - 1 } } } , \frac { \sqrt { 6 } } { \sqrt { M _ { \ell}+ M _ { \ell- 1 } } } \right]$