python从零开始学习深度学习01——神经网络反向传播的链式求导

server/2024/10/18 12:29:32/

自我介绍

最懂保险的算法工程师，致力于保险理念的推广，让每个程序员在35岁时都能够免除后顾之忧。通过构建保险组合，避免中年因病致穷，苦攒多年积蓄全部花费在医疗上，因此返贫。有兴趣的朋友后台私信加V：Archangle3_14，加不上可私信，常驻深圳，可约面谈。

交叉熵损失函数+sigmoid激活函数的链式求导

如果损失函数是交叉熵损失（entropy loss），通常用于分类任务中评估模型的输出与实际标签之间的差异。假设我们处理的是一个二分类问题，使用的输出层激活函数是sigmoid函数，那么交叉熵损失函数可以表达为：

交叉熵损失函数

对于一个给定的样本，交叉熵损失定义为：
$-\left(y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})\right)$
其中 $y$ 是实际的标签， $\hat{y}$ 是模型的预测概率，这里 $\hat{y} = \sigma(\mathbf{z})$ ，且 $\mathbf{z}$ 是隐藏层通过激活函数之前的线性输出。

链式求导

为了应用链式求导，我们首先计算 $\frac{\partial L}{\partial \hat{y}}$ ：
$\frac{\partial L}{\partial \hat{y}} = -\left(\frac{y}{\hat{y}} - \frac{1 - y}{1 - \hat{y}}\right)$

然后，考虑 $\hat{y} = \sigma(\mathbf{z})$ ，其导数 $\sigma'(z) = \sigma(z)(1 - \sigma(z))$ ，所以我们有：
$\frac{\partial \hat{y}}{\partial \mathbf{z}} = \sigma(\mathbf{z})(1 - \sigma(\mathbf{z})) = \hat{y}(1 - \hat{y})$

现在，利用链式法则计算 $\frac{\partial L}{\partial \mathbf{z}}$ ：
$\frac{\partial L}{\partial \mathbf{z}} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial \mathbf{z}} = \left(-\frac{y}{\hat{y}} + \frac{1 - y}{1 - \hat{y}}\right) \cdot \hat{y}(1 - \hat{y})$
简化上式，我们得到：
$\frac{\partial L}{\partial \mathbf{z}} = -y(1 - \hat{y}) + (1 - y)\hat{y} = \hat{y} - y$

最终，根据 $\mathbf{z} = \mathbf{Wx} + \mathbf{b}$ ，我们得到权重 $\mathbf{W}$ 和偏置 $\mathbf{b}$ 的梯度：
$\frac{\partial L}{\partial \mathbf{W}} = (\hat{y} - y) \mathbf{x}^T$
$\frac{\partial L}{\partial \mathbf{b}} = \hat{y} - y$