吴恩达深度学习——卷积神经网络实例分析

内容来自https://www.bilibili.com/video/BV1FT4y1E74V，仅为本人学习所用。

文章目录

LeNet-5
AlexNet
VGG-16
ResNets
- 残差块
1*1卷积

LeNet-5

在这里插入图片描述

输入层：输入为一张尺寸是 $32 \times 32 \times 1$ 的图像，其中 $32 \times 32$ 是图像的长和宽， $1$ 表示通道数。
第一层卷积：
- 卷积核参数：卷积核大小为 $5 \times 5$ ，步长 $s = 1$ ，卷积核数量 $n_c = 6$ 。
- 输出尺寸计算：根据公式 $n_H=\lfloor\frac{n_{H_{in}} - f + 1}{s}\rfloor$ ， $n_W=\lfloor\frac{n_{W_{in}} - f + 1}{s}\rfloor$ （ $n_{H_{in}}$ 、 $n_{W_{in}}$ 为输入特征图的高和宽， $f$ 为卷积核尺寸， $s$ 为步长），这里 $n_{H_{in}}=n_{W_{in}} = 32$ ， $f = 5$ ， $s = 1$ ，则 $n_H=\lfloor\frac{32 - 5 + 1}{1}\rfloor = 28$ ， $n_W=\lfloor\frac{32 - 5 + 1}{1}\rfloor = 28$ 。所以输出特征图尺寸为 $28 \times 28 \times 6$ 。
第一层平均池化：
- 池化核参数：池化核大小 $f = 2$ ，步长 $s = 2$ 。
- 输出尺寸计算： $n_H=\lfloor\frac{28 - 2 + 1}{2}\rfloor = 14$ ， $n_W=\lfloor\frac{28 - 2 + 1}{2}\rfloor = 14$ 。输出特征图尺寸为 $14 \times 14 \times 6$ 。
第二层卷积：
- 卷积核参数：卷积核大小为 $5 \times 5$ ，步长 $s = 1$ ，卷积核数量 $n_c = 16$ 。
- 输出尺寸计算： $n_H=\lfloor\frac{14 - 5 + 1}{1}\rfloor = 10$ ， $n_W=\lfloor\frac{14 - 5 + 1}{1}\rfloor = 10$ 。输出特征图尺寸为 $10 \times 10 \times 16$ 。
第二层平均池化：
- 池化核参数：池化核大小 $f = 2$ ，步长 $s = 2$ 。
- 输出尺寸计算： $n_H=\lfloor\frac{10 - 2 + 1}{2}\rfloor = 5$ ， $n_W=\lfloor\frac{10 - 2 + 1}{2}\rfloor = 5$ 。输出特征图尺寸为 $5 \times 5 \times 16$ ，将其展平后神经元数量为 $5 \times 5 \times 16 = 400$ 。
全连接层：
- 第一个全连接层有 $120$ 个神经元，连接展平后的 $400$ 个神经元。
- 第二个全连接层有 $84$ 个神经元，连接第一个全连接层的 $120$ 个神经元。
输出层：通过Softmax函数输出 $10$ 个类别的概率分布，用于分类任务。

AlexNet

在这里插入图片描述

输入层：输入图像尺寸为 $227 \times 227 \times 3$ ，其中 $227 \times 227$ 是图像的长和宽， $3$ 表示通道数。
第一层卷积：
- 卷积核：卷积核大小为 $11 \times 11$ ，步长 $s = 4$ ，卷积核数量 $n_c = 96$ 。
- 输出尺寸：根据公式 $n_H=\lfloor\frac{n_{H_{in}} - f + 1}{s}\rfloor$ ， $n_W=\lfloor\frac{n_{W_{in}} - f + 1}{s}\rfloor$ （ $n_{H_{in}}$ 、 $n_{W_{in}}$ 为输入特征图的高和宽， $f$ 为卷积核尺寸， $s$ 为步长），可得 $n_H=\lfloor\frac{227 - 11 + 1}{4}\rfloor = 55$ ， $n_W=\lfloor\frac{227 - 11 + 1}{4}\rfloor = 55$ 。所以输出特征图尺寸为 $55 \times 55 \times 96$ 。
第一层最大池化：
- 池化核：池化核大小为 $3 \times 3$ ，步长 $s = 2$ 。
- 输出尺寸： $n_H=\lfloor\frac{55 - 3 + 1}{2}\rfloor = 27$ ， $n_W=\lfloor\frac{55 - 3 + 1}{2}\rfloor = 27$ 。输出特征图尺寸为 $27 \times 27 \times 96$ 。
第二层卷积：
- 卷积核：卷积核大小为 $5 \times 5$ ，填充 $p$ 为“same”（保证输出尺寸与输入相同），卷积核数量 $n_c = 256$ 。
- 输出尺寸：当使用“same”填充时，输出尺寸与输入相同，即 $27 \times 27 \times 256$ 。
第二层最大池化
- 池化核：池化核大小为 $3 \times 3$ ，步长 $s = 2$ 。
- 输出尺寸： $n_H=\lfloor\frac{27 - 3 + 1}{2}\rfloor = 13$ ， $n_W=\lfloor\frac{27 - 3 + 1}{2}\rfloor = 13$ 。输出特征图尺寸为 $13 \times 13 \times 256$ 。
第三 - 五层卷积：
这三层卷积核大小均为 $3 \times 3$ ，填充均为“same”，卷积核数量分别为 $384$ 、 $384$ 、 $256$ 。每层输出特征图尺寸均保持为 $13 \times 13 \times$ 相应通道数。
第三层最大池化
- 池化核：池化核大小为 $3 \times 3$ ，步长 $s = 2$ 。
- 输出尺寸： $n_H=\lfloor\frac{13 - 3 + 1}{2}\rfloor = 6$ ， $n_W=\lfloor\frac{13 - 3 + 1}{2}\rfloor = 6$ 。输出特征图尺寸为 $6 \times 6 \times 256$ 。
全连接层：
- 展平 $6 \times 6 \times 256$ 的特征图，得到 $6 \times 6 \times 256 = 9216$ 个神经元，连接到第一个全连接层（ $9216$ 个神经元）。
- 第一个全连接层连接到第二个全连接层（ $4096$ 个神经元），第二个全连接层再连接到第三个全连接层（ $4096$ 个神经元）。
输出层：第三个全连接层连接到输出层，通过Softmax函数输出 $1000$ 个类别的概率分布。

AlexNet 与 LeNet - 5 结构类似但规模更大，使用了 ReLU 激活函数。

VGG-16

在这里插入图片描述

输入层：输入是尺寸为 $224 \times 224 \times 3$ 的图像，其中 $224 \times 224$ 是图像的空间尺寸， $3$ 表示通道数。
卷积层与池化层：
- 第一组：使用 $2$ 个 $3 \times 3$ 、步长为 $1$ 、填充为“same”的卷积核，卷积核数量分别为 $64$ ，输出特征图尺寸为 $224 \times 224 \times 64$ ；接着是最大池化层，池化窗口 $2 \times 2$ 、步长为 $2$ ，输出 $112 \times 112 \times 64$ 的特征图。
- 第二组： $2$ 个 $3 \times 3$ 、步长为 $1$ 、填充为“same”的卷积核，卷积核数量为 $128$ ，输出 $112 \times 112 \times 128$ 的特征图；再经最大池化（ $2 \times 2$ ，步长 $2$ ），输出 $56 \times 56 \times 128$ 的特征图。
- 第三组： $3$ 个 $3 \times 3$ 、步长为 $1$ 、填充为“same”的卷积核，卷积核数量为 $256$ ，输出 $56 \times 56 \times 256$ 的特征图；经最大池化（ $2 \times 2$ ，步长 $2$ ），输出 $28 \times 28 \times 256$ 的特征图。
- 第四组： $3$ 个 $3 \times 3$ 、步长为 $1$ 、填充为“same”的卷积核，卷积核数量为 $512$ ，输出 $28 \times 28 \times 512$ 的特征图；经最大池化（ $2 \times 2$ ，步长 $2$ ），输出 $14 \times 14 \times 512$ 的特征图。
- 第五组： $3$ 个 $3 \times 3$ 、步长为 $1$ 、填充为“same”的卷积核，卷积核数量为 $512$ ，输出 $14 \times 14 \times 512$ 的特征图；经最大池化（ $2 \times 2$ ，步长 $2$ ），输出 $7 \times 7 \times 512$ 的特征图。
全连接层：
- 展平 $7 \times 7 \times 512$ 的特征图后连接到第一个全连接层，有 $4096$ 个神经元。
- 第一个全连接层连接到第二个全连接层，同样有 $4096$ 个神经元。
输出层：通过Softmax函数输出 $1000$ 个类别的概率分布。

VGG - 16结构简洁，通过堆叠多个小尺寸卷积核来加深网络。

ResNets

传统神经网络在加深层数时可能会出现梯度消失或梯度爆炸，以及性能退化（训练误差和测试误差增加）等问题。看看如下常规计算：
在这里插入图片描述
对于输入为 $a^{[l]}$ ，经过两层处理后得到输出 $a^{[l + 2]}$ 。每一层由神经元组成， $a^{[l]}$ 先进入第一层得到 $a^{[l + 1]}$ ，再进入第二层得到 $a^{[l + 2]}$ 。计算过程如下：

输入 $a^{[l]}$ 首先进行线性变换： $z^{[l + 1]} = W^{[l + 1]}a^{[l]} + b^{[l + 1]}$ ，其中 $W^{[l + 1]}$ 是权重矩阵， $b^{[l + 1]}$ 是偏置项。
对线性变换结果 $z^{[l + 1]}$ 应用ReLU激活函数： $a^{[l + 1]} = g(z^{[l + 1]})$ ， $g$ 代表ReLU函数。
$a^{[l + 1]}$ 再进行第二次线性变换： $z^{[l + 2]} = W^{[l + 2]}a^{[l + 1]} + b^{[l + 2]}$ 。
对 $z^{[l + 2]}$ 应用ReLU激活函数得到输出： $a^{[l + 2]} = g(z^{[l + 2]})$ 。

残差块

残差块是一种特殊的神经网络模块，引入了跳跃连接（图中上面的蓝色箭头）机制，使得网络能够学习输入和输出之间的残差映射，而不是直接学习复杂的恒等映射。
在这里插入图片描述
对于普通网络，理论上（绿色曲线）随着层数增加，训练误差应持续降低，但实际上（蓝色曲线），当层数增加到一定程度，训练误差反而上升，出现性能退化问题。

对于残差网络，随着层数增加，训练误差能够持续下降，避免了普通网络中的性能退化问题，使得网络可以更容易地训练更深的层次，解决普通深层神经网络中梯度消失和性能退化等问题。

本网络引入残差块，有：
在这里插入图片描述
输入 $a^{[l]}$ ，直接到 $a^{[l + 1]}$ 线性函数处的输出。计算过程如下：

输入 $a^{[l]}$ 先进行第一次线性变换： $z^{[l + 1]} = W^{[l + 1]}a^{[l]} + b^{[l + 1]}$ 。
对 $z^{[l + 1]}$ 应用ReLU激活函数： $a^{[l + 1]} = g(z^{[l + 1]})$ 。
$a^{[l + 1]}$ 进行第二次线性变换： $z^{[l + 2]} = W^{[l + 2]}a^{[l + 1]} + b^{[l + 2]}$ 。
跳跃连接（紫色箭头）将 $a^{[l]}$ 与 $z^{[l + 2]}$ 相加，然后对相加结果应用ReLU激活函数得到最终输出： $a^{[l + 2]} = g(z^{[l + 2]} + a^{[l]})$ 。

1*1卷积

在这里插入图片描述
对于一个 $6\times6\times32$ 的张量，经过 $1\times1\times32$ 卷积和激活函数，相当于把32个通道的值相加后填入。 $1\times1$ 卷积从根本上可以看作是32个通道都应用了一个全连接神经网络。

使用大小为 $1 \times 1$ 的卷积核时，当输入通道为1时， $1 \times 1$ 卷积对原特征的缩放操作；多通道时，对于输入特征图的每个区域，计算该区域与卷积核中的元素之和，还可引入激活函数。

在这里插入图片描述

输入为尺寸 $28 \times 28 \times 192$ 的特征图，使用了 $32$ 个 $1 \times 1$ 的卷积核对同一个区域进行卷积操作32次，卷积核大小为 $1 \times 1 \times 192$ （因为输入通道数是 $192$ ），之后经过ReLU激活函数，输出特征图尺寸为 $28 \times 28 \times 32$ ，空间尺寸（ $28 \times 28$ ）保持不变，通道数从 $192$ 减少到了 $32$ ，说明 $1 \times 1$ 卷积可以在不改变特征图空间大小的情况下，对通道数进行降维调整，减少计算量和模型参数数量。