吴恩达深度学习—

内容来自https://www.bilibili.com/video/BV1FT4y1E74V，仅为本人学习所用。

文章目录

对象定位
特征点检测
基于滑动窗口的目标检测算法
- 原理
- 将全连接层转化成卷积层
- 通过卷积实现滑动窗口检测算法
YOLO
- Bounding Box预测
- 交并比
- 非极大值抑制
- Anchor Box
- YOLO检测
- - 训练集中
  - 预测时
- 带区域的卷积网络

对象定位

在这里插入图片描述
之前检测一张图片只是检测是不是车，现在进一步地，不仅仅检测是不是车，而且要标记出其位置，这就是对象定位问题。

在这里插入图片描述
首先对图片进行分类，判断图片的类别，这个过程是之前分享过的一般过程：图片使用CNN后，经过softmax激活函数进行分类。如果需要附加定位功能，那么CNN的输出不仅要输出分类，而且还要输出定位框的坐标信息。因此，训练集的数据不仅仅要包含要预测的对象分类标签，还需要包含表示边界框的四个坐标数字。

定义图片左上角位置为(0,0)，右下角位置为(1,1)，定位框的中心点坐标为(bx,by)，定位框宽bw，高bh。

定义目标标签 $Y$ ：

pc：是否包含对象，若包含行人、车、摩托车，则值为1；若是背景，则值为0。
bx、by、bw、bz：若检测到对象，输出边界框的参数。
c1、c2、c3：若pc=1，则输出，表示该对象属于行人、车，摩托车中的哪一类。
第一张图中有车，对应的目标标签 $y$ 中， $p_c$ （表示是否存在目标）为1说明存在目标， $b_x$ 、 $b_y$ 、 $b_h$ 、 $b_w$ 为汽车边界框的相关参数，类别标签 $c_1$ 为0（行人）、 $c_2$ 为1（汽车）、 $c_3$ 为0（摩托车）说明该对象被分类为车。
第二张图中没有对象，对应的目标标签 $y$ 中， $p_c$ 为0， $b_x$ 、 $b_y$ 、 $b_h$ 、 $b_w$ 以及 $c_1$ 、 $c_2$ 、 $c_3$ 都可以设为“?”表示无参数。

特征点检测

在这里插入图片描述
如果要检测特征，比如人脸检测，标记了64处特征。输出包括是否为人脸的判断，以及人脸64个关键点的坐标，即 $l_{1x}$ ， $l_{1y}$ ， $l_{2x}$ ， $l_{2y}$ ，… ， $l_{64x}$ ， $l_{64y}$ ，共计129（64个标签，x和y两个坐标和一个是不是人脸的判断64*2+1）个输出值。

基于滑动窗口的目标检测算法

原理

在这里插入图片描述
要检测和定位车。准备训练集时，可以先重点关注图片是否包含车和不包含车，经过CNN输出预测值。然后实现滑动窗口目标检测。具体步骤如下：

首先选定一个特定大小的窗口（红色小方块）输入卷积网络，然后窗口按照一定的步长滑动来遍历图片上的像素。然后选定更大的窗口继续遍历。这个遍历过程需要重复多次。在上述的遍历过程中，总有一个窗口能够对应上车的位置，输出标签为1。
在这里插入图片描述
由于需要在大量不同位置和尺寸上滑动窗口，计算量较大。

将全连接层转化成卷积层

将全连接层转化为卷积层，可以减少参数数量，降低计算量，减轻内存负担。
在这里插入图片描述
上部分图：输入一个 $14 \times 14 \times 3$ 的特征图，使用了 $16$ 个大小为 $5 \times 5$ 的卷积核进行卷积操作。 $H_{w}=\lfloor\frac{H_{in}-f + 2p}{s}\rfloor + 1$ ， $H_{h}=\lfloor\frac{H_{in}-f + 2p}{s}\rfloor + 1$ ，则输出特征图的高度和宽度为 $\lfloor\frac{14 - 5}{1}\rfloor + 1 = 10$ ，输出特征图的通道数等于卷积核的数量，即 $16$ 。所以卷积层输出特征图的尺寸为 $10 \times 10 \times 16$ 。

池化层采用最大池化，池化窗口大小为 $2 \times 2$ ，步长为 $2$ ，有 $H_{w}=\lfloor\frac{H_{in}-f+2p}{s}\rfloor + 1$ ， $H_{h}=\lfloor\frac{H_{in}-f+2p}{s}\rfloor + 1$ ，输出特征图的高度和宽度为 $\lfloor\frac{10 - 2}{2}\rfloor + 1 = 5$ 。池化层不改变通道数，输出特征图尺寸为 $5 \times 5 \times 16$ 。

在全连接层，第一个全连接层：将池化层输出的三维特征图（ $5 \times 5 \times 16$ ）展平为一维向量，其长度为 $5 \times 5 \times 16 = 400$ ，即第一个全连接层的输入神经元个数为 $400$ ，输出神经元个数也为 $400$ 。第二个全连接层：输入为第一个全连接层的输出，即 $400$ 个神经元，输出同样为 $400$ 个神经元。

使用Softmax函数进行分类，输出 $4$ 个类别的概率分布，最终输出 $y$ 。

下部分图：之前的相同，在全连接层将其转为卷积层：对于第一个全连接层，将池化层输出的 $5 \times 5 \times 16$ 特征图使用400个 $5 \times 5 \times 16$ 的过滤器展平成一维向量，其长度为 $5 \times 5 \times 16 = 400$ ，输出尺寸为 $1 \times 1 \times 400$ （代入公式计算）。不再将其看作一个有400节点的集合，而是看成一个卷积层。第二个全连接层输入为 $1 \times 1 \times 400$ ，输出同样为 $400$ 个神经元，输出尺寸为 $1 \times 1 \times 400$ 变成卷积层。

通过卷积实现滑动窗口检测算法

在这里插入图片描述
如图，将 $14\times14\times3$ 尺寸的特征图填充成 $16\times16\times3$ 的特征图，使用大小为 $5\times5$ 的卷积核进行卷积…最后得到 $2\times2\times4$ 的输出。将全连接层转为卷积层后，不必将图片分割为4个部分，而是作为一张图片输入给卷积网络计算。比如图中检测了红绿黄紫四个区域，每一个区域经过一层一层的过滤器，在 $2\times2\times4$ 的输出上，左上角表示红色区域的检测结果、右上角表示绿色区域的检测结果、左下角现实黄色区域的检测结果和右下角显示紫色区域的检测结果。

在过程中可以看到有很多区域的计算都是重复的，但是卷积网络在传播过程中可以共享大量的计算，提高计算效率。
在这里插入图片描述
在应用时，不必在图片上连续进行卷积，而是一次性对一张图片得到所有的预测结果，如果足够幸运，神经网络可以直接识别出汽车位置。

YOLO

Bounding Box预测

在这里插入图片描述
使用卷积实现滑动窗口时，滑动步长如果太细腻，会消耗大量的计算资源；如果粗糙，会出现如图的情况，定位框不能完全定位目标位置。YOLO算法可以得到更精准的定位框。

对于一张100*100的图片，在图像上放个网格，这里取3*3（实际中更大）。对每一个网格使用分类和定位。
在这里插入图片描述
对于训练标签 $y$ ，第一个网格中无对象，pc=0…绿色框和右边的紫色框中都有对象，类别为汽车，这时候，取两个对象的中点，将该对象分配给包含对象中点的格子（将左边的汽车类别分配给绿色框而不是右边的紫色框，将右边的车分配给黄色框），认为紫色框中无对象…

图像输出为一个 $3 \times 3 \times 8$ 的张量，其中 $3 \times 3$ 对应网格的数量， $8$ 对应每个网格的标签维度（ $1$ 个 $p_c$ + $4$ 个边界框参数 + $3$ 个类别概率）。

交并比

在这里插入图片描述
对于实际大小的定位框（红色），若网络定位的定位框，想要知道这个结果是好还是坏，计算其交并比即可。

交并比函数IoU是两个边界框交集的面积与并集的面积之比，其值介于0到1之间。IoU值为0时，表示两个边界框没有任何重叠；IoU值为1时，代表两个边界框完全重合。

对于边界框 $A$ 和 $B$ ：

首先计算 $A$ 和 $B$ 的交集面积 $S_{intersection}$ 。可以通过确定两个边界框在水平和垂直方向上的重叠区域，进而计算重叠部分的面积。比如，设 $A$ 的左上角坐标为 $x_{A1}, y_{A1})$ ，右下角坐标为 $x_{A2}, y_{A2})$ ， $B$ 的左上角坐标为 $x_{B1}, y_{B1})$ ，右下角坐标为 $x_{B2}, y_{B2})$ 。则交集的左上角坐标为 $max(x_{A1}, x_{B1}), max(y_{A1}, y_{B1}))$ ，右下角坐标为 $min(x_{A2}, x_{B2}), min(y_{A2}, y_{B2}))$ ，根据坐标计算出交集面积。
接着计算 $A$ 和 $B$ 的并集面积 $S_{union}$ 。并集面积等于 $A$ 的面积 $S_A$ 加上 $B$ 的面积 $S_B$ 减去交集面积 $S_{intersection}$ ，即 $S_{union}=S_A + S_B - S_{intersection}$ 。
最后，交并比 $\frac{S_{intersection}}{S_{union}}$ 。

约定IOU大于等于0.5说明检测正确。

非极大值抑制

对象检测可能存在一个问题是算法可能对同一个对象做出多次检测，可以使用非极大值抑制来检测对象一次。
在这里插入图片描述
在19*19的网格中，车所在的网格应该是中心点所在的网格。对于左边的车，几个框会认为它的网格中也包含车。

在右图中，对于右边的车，检测出3个概率，分别是0.9，0.6，0.7。非极大值抑制算法会找出这三个中的极大值0.9并保存，然后和这个定位框交并（IOU）程度很高的其他框0.6和0.7的被抑制。接下来继续找其他的框。找到了左边的0.8和0.7，概率最高的0.8处的框被认为是一辆车，同时抑制其他的定位框0.7，最后得到两个预测结果。

Anchor Box

目前，一个格子只能输出一个对象。想要输出多个对象，需要使用Anchor Box。
在这里插入图片描述
在左图中，车与人的中心点几乎在同一个位置，依靠单独的 $y$ 标签不能同时显示二者的存在。因此可以定义两个Anchor box，其中，Anchor box1锚定人，而Anchor box2锚定车，输出标签y由原来的扩展为2倍分别表示Anchor box1和Anchor box2。