吴恩达深度学习笔记：卷积神经网络（Foundations of Convolutional Neural Networks）1.9-1.10

第四门课卷积神经网络（Convolutional Neural Networks）

第一周卷积神经网络（Foundations of Convolutional Neural Networks）

1.9 池化层（Pooling layers）

除了卷积层，卷积网络也经常使用池化层来缩减模型的大小，提高计算速度，同时提高所提取特征的鲁棒性，我们来看一下。

在这里插入图片描述

先举一个池化层的例子，然后我们再讨论池化层的必要性。假如输入是一个 4×4 矩阵，用到的池化类型是最大池化（max pooling）。执行最大池化的树池是一个 2×2 矩阵。执行过程非常简单，把 4×4 的输入拆分成不同的区域，我把这个区域用不同颜色来标记。对于 2×2的输出，输出的每个元素都是其对应颜色区域中的最大元素值。

在这里插入图片描述
左上区域的最大值是 9，右上区域的最大元素值是 2，左下区域的最大值是 6，右下区域的最大值是 3。为了计算出右侧这 4 个元素值，我们需要对输入矩阵的 2×2 区域做最大值运算。这就像是应用了一个规模为 2 的过滤器，因为我们选用的是 2×2 区域，步幅是 2，这些就是最大池化的超参数。

因为我们使用的过滤器为 2×2，最后输出是 9。然后向右移动 2 个步幅，计算出最大值2。然后是第二行，向下移动 2 步得到最大值 6。最后向右移动 3 步，得到最大值 3。这是一个 2×2 矩阵，即𝑓 = 2，步幅是 2，即𝑠 = 2。

在这里插入图片描述
这是对最大池化功能的直观理解，你可以把这个 4×4 输入看作是某些特征的集合，也许不是。你可以把这个 4×4 区域看作是某些特征的集合，也就是神经网络中某一层的非激活值集合。数字大意味着可能探测到了某些特定的特征，左上象限具有的特征可能是一个垂直边缘，一只眼睛，或是大家害怕遇到的 CAP 特征。显然左上象限中存在这个特征，这个特征可能是一只猫眼探测器。然而，右上象限并不存在这个特征。最大化操作的功能就是只要在任何一个象限内提取到某个特征，它都会保留在最大化的池化输出里。所以最大化运算的实际作用就是，如果在过滤器中提取到某个特征，那么保留其最大值。如果没有提取到这个特征，可能在右上象限中不存在这个特征，那么其中的最大值也还是很小，这就是最大池化的直观理解。

必须承认，人们使用最大池化的主要原因是此方法在很多实验中效果都很好。尽管刚刚描述的直观理解经常被引用，不知大家是否完全理解它的真正原因，不知大家是否理解最大池化效率很高的真正原因。

其中一个有意思的特点就是，它有一组超参数，但并没有参数需要学习。实际上，梯度下降没有什么可学的，一旦确定了𝑓和𝑠，它就是一个固定运算，梯度下降无需改变任何值。

我们来看一个有若干个超级参数的示例，输入是一个 5×5 的矩阵。我们采用最大池化法，它的过滤器参数为 3×3，即𝑓 = 3，步幅为 1，𝑠 = 1，输出矩阵是 3×3。之前讲的计算卷积层输出大小的公式同样适用于最大池化，即𝑛+2𝑝−𝑓𝑠+ 1，这个公式也可以计算最大池化的输出大小。

在这里插入图片描述

此例是计算 3×3 输出的每个元素，我们看左上角这些元素，注意这是一个 3×3 区域，因为有 3 个过滤器，取最大值 9。然后移动一个元素，因为步幅是 1，蓝色区域的最大值是 9.继续向右移动，蓝色区域的最大值是 5。然后移到下一行，因为步幅是 1，我们只向下移动一个格，所以该区域的最大值是 9。这个区域也是 9。这两个区域的最大值都是 5。最后这三个区域的最大值分别为 8，6 和 9。超参数𝑓 = 3，𝑠 = 1，最终输出如图所示。

在这里插入图片描述

以上就是一个二维输入的最大池化的演示，如果输入是三维的，那么输出也是三维的。例如，输入是 5×5×2，那么输出是 3×3×2。计算最大池化的方法就是分别对每个通道执行刚刚的计算过程。如上图所示，第一个通道依然保持不变。对于第二个通道，我刚才画在下面的，在这个层做同样的计算，得到第二个通道的输出。一般来说，如果输入是 5×5×𝑛𝑐，输出就是 3×3×𝑛𝑐，𝑛𝑐个通道中每个通道都单独执行最大池化计算，以上就是最大池化算法。

在这里插入图片描述
另外还有一种类型的池化，平均池化，它不太常用。我简单介绍一下，这种运算顾名思义，选取的不是每个过滤器的最大值，而是平均值。示例中，紫色区域的平均值是 3.75，后面依次是 1.25、4 和 2。这个平均池化的超级参数𝑓 = 2，𝑠 = 2，我们也可以选择其它超级参数。

在这里插入图片描述
目前来说，最大池化比平均池化更常用。但也有例外，就是深度很深的神经网络，你可以用平均池化来分解规模为 7×7×1000 的网络的表示层，在整个空间内求平均值，得到1×1×1000，一会我们看个例子。但在神经网络中，最大池化要比平均池化用得更多。

总结一下，池化的超级参数包括过滤器大小𝑓和步幅𝑠，常用的参数值为𝑓 = 2，𝑠 = 2，应用频率非常高，其效果相当于高度和宽度缩减一半。也有使用𝑓 = 3，𝑠 = 2的情况。至于其它超级参数就要看你用的是最大池化还是平均池化了。你也可以根据自己意愿增加表示padding 的其他超级参数，虽然很少这么用。最大池化时，往往很少用到超参数 padding，当然也有例外的情况，我们下周会讲。大部分情况下，最大池化很少用 padding。目前𝑝最常用的值是 0，即𝑝 = 0。最大池化的输入就是 $n_H × n_W × n_c$ ，假设没有 padding，则输出⌊ $\frac{n_H−f}{s}+1$ ⌋ × ⌊ $\frac{n_W−f}{s}+1$ ⌋ × $n_c$ 。输入通道与输出通道个数相同，因为我们对每个通道都做了池化。需要注意的一点是，池化过程中没有需要学习的参数。执行反向传播时，反向传播没有参数适用于最大池化。只有这些设置过的超参数，可能是手动设置的，也可能是通过交叉验证设置的。

在这里插入图片描述

除了这些，池化的内容就全部讲完了。最大池化只是计算神经网络某一层的静态属性，没有什么需要学习的，它只是一个静态属性。

关于池化我们就讲到这儿，现在我们已经知道如何构建卷积层和池化层了。下节课，我们会分析一个更复杂的可以引进全连接层的卷积网络示例。

1.10 卷积神经网络示例（ Convolutional neural network example）

构建全卷积神经网络的构造模块我们已经掌握得差不多了，下面来看个例子。

假设，有一张大小为 32×32×3 的输入图片，这是一张 RGB 模式的图片，你想做手写体数字识别。32×32×3 的 RGB 图片中含有某个数字，比如 7，你想识别它是从 0-9 这 10 个数字中的哪一个，我们构建一个神经网络来实现这个功能。

在这里插入图片描述

我用的这个网络模型和经典网络 LeNet-5 非常相似，灵感也来源于此。LeNet-5 是多年前 Yann LeCun 创建的，我所采用的模型并不是 LeNet-5，但是受它启发，许多参数选择都与LeNet-5 相似。输入是 32×32×3 的矩阵，假设第一层使用过滤器大小为 5×5，步幅是 1，padding是 0，过滤器个数为 6，那么输出为 28×28×6。将这层标记为 CONV1，它用了 6 个过滤器，增加了偏差，应用了非线性函数，可能是 ReLU 非线性函数，最后输出 CONV1 的结果。

在这里插入图片描述

然后构建一个池化层，这里我选择用最大池化，参数𝑓 = 2，𝑠 = 2，因为 padding 为 0，我就不写出来了。现在开始构建池化层，最大池化使用的过滤器为 2×2，步幅为 2，表示层的高度和宽度会减少一半。因此，28×28 变成了 14×14，通道数量保持不变，所以最终输出为 14×14×6，将该输出标记为 POOL1。

在这里插入图片描述
人们发现在卷积神经网络文献中，卷积有两种分类，这与所谓层的划分存在一致性。一类卷积是一个卷积层和一个池化层一起作为一层，这就是神经网络的 Layer1。另一类卷积是把卷积层作为一层，而池化层单独作为一层。人们在计算神经网络有多少层时，通常只统计具有权重和参数的层。因为池化层没有权重和参数，只有一些超参数。这里，我们把 CONV1和 POOL1 共同作为一个卷积，并标记为 Layer1。虽然你在阅读网络文章或研究报告时，你可能会看到卷积层和池化层各为一层的情况，这只是两种不同的标记术语。一般我在统计网络层数时，只计算具有权重的层，也就是把 CONV1 和 POOL1 作为 Layer1。这里我们用 CONV1和 POOL1 来标记，两者都是神经网络 Layer1 的一部分，POOL1 也被划分在 Layer1 中，因为它没有权重，得到的输出是 14×14×6。

在这里插入图片描述

我们再为它构建一个卷积层，过滤器大小为 5×5，步幅为 1，这次我们用 10 个过滤器，最后输出一个 10×10×10 的矩阵，标记为 CONV2。

在这里插入图片描述
然后做最大池化，超参数𝑓 = 2，𝑠 = 2。你大概可以猜出结果，𝑓 = 2，𝑠 = 2，高度和宽度会减半，最后输出为5×5×10，标记为POOL2，这就是神经网络的第二个卷积层，即Layer2。

在这里插入图片描述

如果对 Layer1 应用另一个卷积层，过滤器为 5×5，即𝑓 = 5，步幅是 1，padding 为 0，所以这里省略了，过滤器 16 个，所以 CONV2 输出为 10×10×16。我们看看 CONV2，这是CONV2 层。

在这里插入图片描述

继续执行做大池化计算，参数𝑓 = 2，𝑠 = 2，你能猜到结果么？对 10×10×16 输入执行最大池化计算，参数𝑓 = 2，𝑠 = 2，高度和宽度减半，计算结果猜到了吧。最大池化的参数𝑓 = 2，𝑠 = 2，输入的高度和宽度会减半，结果为 5×5×16，通道数和之前一样，标记为 POOL2。这是一个卷积，即 Layer2，因为它只有一个权重集和一个卷积层 CONV2。

在这里插入图片描述
5×5×16 矩阵包含 400 个元素，现在将 POOL2 平整化为一个大小为 400 的一维向量。我们可以把平整化结果想象成这样的一个神经元集合，然后利用这 400 个单元构建下一层。下一层含有 120 个单元，这就是我们第一个全连接层，标记为 FC3。这 400 个单元与 120 个单
元紧密相连，这就是全连接层。它很像我们在第一和第二门课中讲过的单神经网络层，这是一个标准的神经网络。它的权重矩阵为𝑊[3]，维度为 120×400。这就是所谓的“全连接”，因为这 400 个单元与这 120 个单元的每一项连接，还有一个偏差参数。最后输出 120 个维度，因为有 120 个输出。

然后我们对这个 120 个单元再添加一个全连接层，这层更小，假设它含有 84 个单元，标记为 FC4。

在这里插入图片描述

最后，用这 84 个单元填充一个 softmax 单元。如果我们想通过手写数字识别来识别手写 0-9 这 10 个数字，这个 softmax 就会有 10 个输出。

此例中的卷积神经网络很典型，看上去它有很多超参数，关于如何选定这些参数，后面我提供更多建议。常规做法是，尽量不要自己设置超参数，而是查看文献中别人采用了哪些超参数，选一个在别人任务中效果很好的架构，那么它也有可能适用于你自己的应用程序，这块下周我会细讲。

在这里插入图片描述

现在，我想指出的是，随着神经网络深度的加深，高度𝑛𝐻和宽度𝑛𝑊通常都会减少，前面我就提到过，从 32×32 到 28×28，到 14×14，到 10×10，再到 5×5。所以随着层数增加，高度和宽度都会减小，而通道数量会增加，从 3 到 6 到 16 不断增加，然后得到一个全连接层。

在神经网络中，另一种常见模式就是一个或多个卷积后面跟随一个池化层，然后一个或多个卷积层后面再跟一个池化层，然后是几个全连接层，最后是一个 softmax。这是神经网络的另一种常见模式。

接下来我们讲讲神经网络的激活值形状，激活值大小和参数数量。输入为 32×32×3，这些数做乘法，结果为 3072，所以激活值𝑎[0]有 3072 维，激活值矩阵为 32×32×3，输入层没有参数。计算其他层的时候，试着自己计算出激活值，这些都是网络中不同层的激活值形状和激活值大小。

在这里插入图片描述

有几点要注意，第一，池化层和最大池化层没有参数；第二卷积层的参数相对较少，前面课上我们提到过，其实许多参数都存在于神经网络的全连接层。观察可发现，随着神经网络的加深，激活值尺寸会逐渐变小，如果激活值尺寸下降太快，也会影响神经网络性能。示例中，激活值尺寸在第一层为 6000，然后减少到 1600，慢慢减少到 84，最后输出 softmax结果。我们发现，许多卷积网络都具有这些属性，模式上也相似。

神经网络的基本构造模块我们已经讲完了，一个卷积神经网络包括卷积层、池化层和全连接层。许多计算机视觉研究正在探索如何把这些基本模块整合起来，构建高效的神经网络，整合这些基本模块确实需要深入的理解。根据我的经验，找到整合基本构造模块最好方法就是大量阅读别人的案例。下周我会演示一些整合基本模块，成功构建高效神经网络的具体案例。我希望下周的课程可以帮助你找到构建有效神经网络的感觉，或许你也可以将别人开发的框架应用于自己的应用程序，这是下周的内容。下节课，也是本周最后一节课，我想花点时间讨论下，为什么大家愿意使用卷积，使用卷积的好处和优势是什么，以及如何整合多个卷积，如何检验神经网络，如何在训练集上训练神经网络来识别图片或执行其他任务，我们下节课继续讲。