深度学习经典模型之LeNet-5

1 LeNet-5

1.1 模型介绍

LeNet-5是由 $L e C u n$ 提出的一种用于识别手写数字和机器印刷字符的卷积神经网络（Convolutional Neural Network，CNN） $^{[1]}$ ，其命名来源于作者 $L e C u n$ 的名字，5则是其研究成果的代号，在LeNet-5之前还有LeNet-4和LeNet-1鲜为人知。LeNet-5阐述了图像中像素特征之间的相关性能够由参数共享的卷积操作所提取，同时使用卷积、下采样（池化）和非线性映射这样的组合结构，是当前流行的大多数深度图像识别网络的基础。

1.2 模型结构

在这里插入图片描述

图4.1 LeNet-5网络结构图

如图4.1所示，LeNet-5一共包含7层（输入层不作为网络结构），分别由2个卷积层、2个下采样层和3个连接层组成，网络的参数配置如表4.1所示，其中下采样层和全连接层的核尺寸分别代表采样范围和连接矩阵的尺寸（如卷积核尺寸中的 $“5\times5\times1/1,6”$ 表示核大小为 $5\times5\times1$ 、步长为 $1$ 且核个数为6的卷积核）。

表4.1 LeNet-5网络参数配置

网络层	输入尺寸	核尺寸	输出尺寸	可训练参数量
卷积层 $C_1$	$32\times32\times1$	$5\times5\times1/1,6$	$28\times28\times6$	$(5\times5\times1+1)\times6$
下采样层 $S_2$	$28\times28\times6$	$2\times2/2$	$14\times14\times6$	$(1+1)\times6$ $^*$
卷积层 $C_3$	$14\times14\times6$	$5\times5\times6/1,16$	$10\times10\times16$	$1516^*$
下采样层 $S_4$	$10\times10\times16$	$2\times2/2$	$5\times5\times16$	$(1+1)\times16$
卷积层 $C_5$ $^*$	$5\times5\times16$	$5\times5\times16/1,120$	$1\times1\times120$	$(5\times5\times16+1)\times120$
全连接层 $F_6$	$1\times1\times120$	$120\times84$	$1\times1\times84$	$(120+1)\times84$
输出层	$1\times1\times84$	$84\times10$	$1\times1\times10$	$(84+1)\times10$

$^*$ 在LeNet中，下采样操作和池化操作类似，但是在得到采样结果后会乘以一个系数和加上一个偏置项，所以下采样的参数个数是 $(1+1)\times6$ 而不是零。

$^*$ $C_3$ 卷积层可训练参数并未直接连接 $S_2$ 中所有的特征图（Feature Map），而是采用如图4.2所示的采样特征方式进行连接（稀疏连接），生成的16个通道特征图中分别按照相邻3个特征图、相邻4个特征图、非相邻4个特征图和全部6个特征图进行映射，得到的参数个数计算公式为 $6\times(25\times3+1)+6\times(25\times4+1)+3\times(25\times4+1)+1\times(25\times6+1)=1516$ ，在原论文中解释了使用这种采样方式原因包含两点：限制了连接数不至于过大（当年的计算能力比较弱）;强制限定不同特征图的组合可以使映射得到的特征图学习到不同的特征模式。