吴恩达深度学习——卷积神经网络实例分析

news/2025/2/7 21:48:52/

内容来自https://www.bilibili.com/video/BV1FT4y1E74V,仅为本人学习所用。

文章目录

  • LeNet-5
  • AlexNet
  • VGG-16
  • ResNets
    • 残差块
  • 1*1卷积

LeNet-5

在这里插入图片描述

  • 输入层:输入为一张尺寸是 32 × 32 × 1 32×32×1 32×32×1的图像,其中 32 × 32 32×32 32×32是图像的长和宽, 1 1 1表示通道数。
  • 第一层卷积
    • 卷积核参数:卷积核大小为 5 × 5 5×5 5×5,步长 s = 1 s = 1 s=1,卷积核数量 n c = 6 n_c = 6 nc=6
    • 输出尺寸计算:根据公式 n H = ⌊ n H i n − f + 1 s ⌋ n_H=\lfloor\frac{n_{H_{in}} - f + 1}{s}\rfloor nH=snHinf+1 n W = ⌊ n W i n − f + 1 s ⌋ n_W=\lfloor\frac{n_{W_{in}} - f + 1}{s}\rfloor nW=snWinf+1 n H i n n_{H_{in}} nHin n W i n n_{W_{in}} nWin为输入特征图的高和宽, f f f为卷积核尺寸, s s s为步长),这里 n H i n = n W i n = 32 n_{H_{in}}=n_{W_{in}} = 32 nHin=nWin=32 f = 5 f = 5 f=5 s = 1 s = 1 s=1,则 n H = ⌊ 32 − 5 + 1 1 ⌋ = 28 n_H=\lfloor\frac{32 - 5 + 1}{1}\rfloor = 28 nH=1325+1=28 n W = ⌊ 32 − 5 + 1 1 ⌋ = 28 n_W=\lfloor\frac{32 - 5 + 1}{1}\rfloor = 28 nW=1325+1=28。所以输出特征图尺寸为 28 × 28 × 6 28×28×6 28×28×6
  • 第一层平均池化
    • 池化核参数:池化核大小 f = 2 f = 2 f=2,步长 s = 2 s = 2 s=2
    • 输出尺寸计算 n H = ⌊ 28 − 2 + 1 2 ⌋ = 14 n_H=\lfloor\frac{28 - 2 + 1}{2}\rfloor = 14 nH=2282+1=14 n W = ⌊ 28 − 2 + 1 2 ⌋ = 14 n_W=\lfloor\frac{28 - 2 + 1}{2}\rfloor = 14 nW=2282+1=14。输出特征图尺寸为 14 × 14 × 6 14×14×6 14×14×6
  • 第二层卷积
    • 卷积核参数:卷积核大小为 5 × 5 5×5 5×5,步长 s = 1 s = 1 s=1,卷积核数量 n c = 16 n_c = 16 nc=16
    • 输出尺寸计算 n H = ⌊ 14 − 5 + 1 1 ⌋ = 10 n_H=\lfloor\frac{14 - 5 + 1}{1}\rfloor = 10 nH=1145+1=10 n W = ⌊ 14 − 5 + 1 1 ⌋ = 10 n_W=\lfloor\frac{14 - 5 + 1}{1}\rfloor = 10 nW=1145+1=10。输出特征图尺寸为 10 × 10 × 16 10×10×16 10×10×16
  • 第二层平均池化
    • 池化核参数:池化核大小 f = 2 f = 2 f=2,步长 s = 2 s = 2 s=2
    • 输出尺寸计算 n H = ⌊ 10 − 2 + 1 2 ⌋ = 5 n_H=\lfloor\frac{10 - 2 + 1}{2}\rfloor = 5 nH=2102+1=5 n W = ⌊ 10 − 2 + 1 2 ⌋ = 5 n_W=\lfloor\frac{10 - 2 + 1}{2}\rfloor = 5 nW=2102+1=5。输出特征图尺寸为 5 × 5 × 16 5×5×16 5×5×16,将其展平后神经元数量为 5 × 5 × 16 = 400 5×5×16 = 400 5×5×16=400
  • 全连接层
    • 第一个全连接层有 120 120 120个神经元,连接展平后的 400 400 400个神经元。
    • 第二个全连接层有 84 84 84个神经元,连接第一个全连接层的 120 120 120个神经元。
  • 输出层:通过Softmax函数输出 10 10 10个类别的概率分布,用于分类任务。

AlexNet

在这里插入图片描述

  • 输入层:输入图像尺寸为 227 × 227 × 3 227×227×3 227×227×3,其中 227 × 227 227×227 227×227是图像的长和宽, 3 3 3表示通道数。
  • 第一层卷积
    • 卷积核:卷积核大小为 11 × 11 11×11 11×11,步长 s = 4 s = 4 s=4,卷积核数量 n c = 96 n_c = 96 nc=96
    • 输出尺寸:根据公式 n H = ⌊ n H i n − f + 1 s ⌋ n_H=\lfloor\frac{n_{H_{in}} - f + 1}{s}\rfloor nH=snHinf+1 n W = ⌊ n W i n − f + 1 s ⌋ n_W=\lfloor\frac{n_{W_{in}} - f + 1}{s}\rfloor nW=snWinf+1 n H i n n_{H_{in}} nHin n W i n n_{W_{in}} nWin为输入特征图的高和宽, f f f为卷积核尺寸, s s s为步长),可得 n H = ⌊ 227 − 11 + 1 4 ⌋ = 55 n_H=\lfloor\frac{227 - 11 + 1}{4}\rfloor = 55 nH=422711+1=55 n W = ⌊ 227 − 11 + 1 4 ⌋ = 55 n_W=\lfloor\frac{227 - 11 + 1}{4}\rfloor = 55 nW=422711+1=55。所以输出特征图尺寸为 55 × 55 × 96 55×55×96 55×55×96
  • 第一层最大池化
    • 池化核:池化核大小为 3 × 3 3×3 3×3,步长 s = 2 s = 2 s=2
    • 输出尺寸 n H = ⌊ 55 − 3 + 1 2 ⌋ = 27 n_H=\lfloor\frac{55 - 3 + 1}{2}\rfloor = 27 nH=2553+1=27 n W = ⌊ 55 − 3 + 1 2 ⌋ = 27 n_W=\lfloor\frac{55 - 3 + 1}{2}\rfloor = 27 nW=2553+1=27。输出特征图尺寸为 27 × 27 × 96 27×27×96 27×27×96
  • 第二层卷积:
    • 卷积核:卷积核大小为 5 × 5 5×5 5×5,填充 p p p为“same”(保证输出尺寸与输入相同),卷积核数量 n c = 256 n_c = 256 nc=256
    • 输出尺寸:当使用“same”填充时,输出尺寸与输入相同,即 27 × 27 × 256 27×27×256 27×27×256
  • 第二层最大池化
    • 池化核:池化核大小为 3 × 3 3×3 3×3,步长 s = 2 s = 2 s=2
    • 输出尺寸 n H = ⌊ 27 − 3 + 1 2 ⌋ = 13 n_H=\lfloor\frac{27 - 3 + 1}{2}\rfloor = 13 nH=2273+1=13 n W = ⌊ 27 − 3 + 1 2 ⌋ = 13 n_W=\lfloor\frac{27 - 3 + 1}{2}\rfloor = 13 nW=2273+1=13。输出特征图尺寸为 13 × 13 × 256 13×13×256 13×13×256
  • 第三 - 五层卷积
    这三层卷积核大小均为 3 × 3 3×3 3×3,填充均为“same”,卷积核数量分别为 384 384 384 384 384 384 256 256 256。每层输出特征图尺寸均保持为 13 × 13 × 13×13× 13×13×相应通道数。
  • 第三层最大池化
    • 池化核:池化核大小为 3 × 3 3×3 3×3,步长 s = 2 s = 2 s=2
    • 输出尺寸 n H = ⌊ 13 − 3 + 1 2 ⌋ = 6 n_H=\lfloor\frac{13 - 3 + 1}{2}\rfloor = 6 nH=2133+1=6 n W = ⌊ 13 − 3 + 1 2 ⌋ = 6 n_W=\lfloor\frac{13 - 3 + 1}{2}\rfloor = 6 nW=2133+1=6。输出特征图尺寸为 6 × 6 × 256 6×6×256 6×6×256
  • 全连接层
    • 展平 6 × 6 × 256 6×6×256 6×6×256的特征图,得到 6 × 6 × 256 = 9216 6×6×256 = 9216 6×6×256=9216个神经元,连接到第一个全连接层( 9216 9216 9216个神经元)。
    • 第一个全连接层连接到第二个全连接层( 4096 4096 4096个神经元),第二个全连接层再连接到第三个全连接层( 4096 4096 4096个神经元)。
  • 输出层:第三个全连接层连接到输出层,通过Softmax函数输出 1000 1000 1000个类别的概率分布。

AlexNet 与 LeNet - 5 结构类似但规模更大,使用了 ReLU 激活函数。

VGG-16

在这里插入图片描述

  • 输入层:输入是尺寸为 224 × 224 × 3 224×224×3 224×224×3的图像,其中 224 × 224 224×224 224×224是图像的空间尺寸, 3 3 3表示通道数。
  • 卷积层与池化层
    • 第一组:使用 2 2 2 3 × 3 3×3 3×3、步长为 1 1 1、填充为“same”的卷积核,卷积核数量分别为 64 64 64,输出特征图尺寸为 224 × 224 × 64 224×224×64 224×224×64;接着是最大池化层,池化窗口 2 × 2 2×2 2×2、步长为 2 2 2,输出 112 × 112 × 64 112×112×64 112×112×64的特征图。
    • 第二组 2 2 2 3 × 3 3×3 3×3、步长为 1 1 1、填充为“same”的卷积核,卷积核数量为 128 128 128,输出 112 × 112 × 128 112×112×128 112×112×128的特征图;再经最大池化( 2 × 2 2×2 2×2,步长 2 2 2),输出 56 × 56 × 128 56×56×128 56×56×128的特征图。
    • 第三组 3 3 3 3 × 3 3×3 3×3、步长为 1 1 1、填充为“same”的卷积核,卷积核数量为 256 256 256,输出 56 × 56 × 256 56×56×256 56×56×256的特征图;经最大池化( 2 × 2 2×2 2×2,步长 2 2 2),输出 28 × 28 × 256 28×28×256 28×28×256的特征图。
    • 第四组 3 3 3 3 × 3 3×3 3×3、步长为 1 1 1、填充为“same”的卷积核,卷积核数量为 512 512 512,输出 28 × 28 × 512 28×28×512 28×28×512的特征图;经最大池化( 2 × 2 2×2 2×2,步长 2 2 2),输出 14 × 14 × 512 14×14×512 14×14×512的特征图。
    • 第五组 3 3 3 3 × 3 3×3 3×3、步长为 1 1 1、填充为“same”的卷积核,卷积核数量为 512 512 512,输出 14 × 14 × 512 14×14×512 14×14×512的特征图;经最大池化( 2 × 2 2×2 2×2,步长 2 2 2),输出 7 × 7 × 512 7×7×512 7×7×512的特征图。
  • 全连接层
    • 展平 7 × 7 × 512 7×7×512 7×7×512的特征图后连接到第一个全连接层,有 4096 4096 4096个神经元。
    • 第一个全连接层连接到第二个全连接层,同样有 4096 4096 4096个神经元。
  • 输出层:通过Softmax函数输出 1000 1000 1000个类别的概率分布。

VGG - 16结构简洁,通过堆叠多个小尺寸卷积核来加深网络。

ResNets

传统神经网络在加深层数时可能会出现梯度消失或梯度爆炸,以及性能退化(训练误差和测试误差增加)等问题。看看如下常规计算:
在这里插入图片描述
对于输入为 a [ l ] a^{[l]} a[l],经过两层处理后得到输出 a [ l + 2 ] a^{[l + 2]} a[l+2]。每一层由神经元组成, a [ l ] a^{[l]} a[l]先进入第一层得到 a [ l + 1 ] a^{[l + 1]} a[l+1],再进入第二层得到 a [ l + 2 ] a^{[l + 2]} a[l+2] 。计算过程如下:

  1. 输入 a [ l ] a^{[l]} a[l]首先进行线性变换: z [ l + 1 ] = W [ l + 1 ] a [ l ] + b [ l + 1 ] z^{[l + 1]} = W^{[l + 1]}a^{[l]} + b^{[l + 1]} z[l+1]=W[l+1]a[l]+b[l+1],其中 W [ l + 1 ] W^{[l + 1]} W[l+1]是权重矩阵, b [ l + 1 ] b^{[l + 1]} b[l+1]是偏置项。
  2. 对线性变换结果 z [ l + 1 ] z^{[l + 1]} z[l+1]应用ReLU激活函数: a [ l + 1 ] = g ( z [ l + 1 ] ) a^{[l + 1]} = g(z^{[l + 1]}) a[l+1]=g(z[l+1]) g g g代表ReLU函数。
  3. a [ l + 1 ] a^{[l + 1]} a[l+1]再进行第二次线性变换: z [ l + 2 ] = W [ l + 2 ] a [ l + 1 ] + b [ l + 2 ] z^{[l + 2]} = W^{[l + 2]}a^{[l + 1]} + b^{[l + 2]} z[l+2]=W[l+2]a[l+1]+b[l+2]
  4. z [ l + 2 ] z^{[l + 2]} z[l+2]应用ReLU激活函数得到输出: a [ l + 2 ] = g ( z [ l + 2 ] ) a^{[l + 2]} = g(z^{[l + 2]}) a[l+2]=g(z[l+2])

残差块

残差块是一种特殊的神经网络模块,引入了跳跃连接(图中上面的蓝色箭头)机制,使得网络能够学习输入和输出之间的残差映射,而不是直接学习复杂的恒等映射。
在这里插入图片描述
对于普通网络,理论上(绿色曲线)随着层数增加,训练误差应持续降低,但实际上(蓝色曲线),当层数增加到一定程度,训练误差反而上升,出现性能退化问题。

对于残差网络,随着层数增加,训练误差能够持续下降,避免了普通网络中的性能退化问题,使得网络可以更容易地训练更深的层次,解决普通深层神经网络中梯度消失和性能退化等问题。

本网络引入残差块,有:
在这里插入图片描述
输入 a [ l ] a^{[l]} a[l],直接到 a [ l + 1 ] a^{[l + 1]} a[l+1]线性函数处的输出。计算过程如下:

  1. 输入 a [ l ] a^{[l]} a[l]先进行第一次线性变换: z [ l + 1 ] = W [ l + 1 ] a [ l ] + b [ l + 1 ] z^{[l + 1]} = W^{[l + 1]}a^{[l]} + b^{[l + 1]} z[l+1]=W[l+1]a[l]+b[l+1]
  2. z [ l + 1 ] z^{[l + 1]} z[l+1]应用ReLU激活函数: a [ l + 1 ] = g ( z [ l + 1 ] ) a^{[l + 1]} = g(z^{[l + 1]}) a[l+1]=g(z[l+1])
  3. a [ l + 1 ] a^{[l + 1]} a[l+1]进行第二次线性变换: z [ l + 2 ] = W [ l + 2 ] a [ l + 1 ] + b [ l + 2 ] z^{[l + 2]} = W^{[l + 2]}a^{[l + 1]} + b^{[l + 2]} z[l+2]=W[l+2]a[l+1]+b[l+2]
  4. 跳跃连接(紫色箭头)将 a [ l ] a^{[l]} a[l] z [ l + 2 ] z^{[l + 2]} z[l+2]相加,然后对相加结果应用ReLU激活函数得到最终输出: a [ l + 2 ] = g ( z [ l + 2 ] + a [ l ] ) a^{[l + 2]} = g(z^{[l + 2]} + a^{[l]}) a[l+2]=g(z[l+2]+a[l])

1*1卷积

在这里插入图片描述
对于一个 6 × 6 × 32 6\times6\times32 6×6×32的张量,经过 1 × 1 × 32 1\times1\times32 1×1×32卷积和激活函数,相当于把32个通道的值相加后填入。 1 × 1 1\times1 1×1卷积从根本上可以看作是32个通道都应用了一个全连接神经网络。

使用大小为 1 × 1 1×1 1×1的卷积核时,当输入通道为1时, 1 × 1 1×1 1×1卷积对原特征的缩放操作;多通道时,对于输入特征图的每个区域,计算该区域与卷积核中的元素之和,还可引入激活函数。

在这里插入图片描述

输入为尺寸 28 × 28 × 192 28×28×192 28×28×192的特征图,使用了 32 32 32 1 × 1 1×1 1×1的卷积核对同一个区域进行卷积操作32次,卷积核大小为 1 × 1 × 192 1×1×192 1×1×192(因为输入通道数是 192 192 192),之后经过ReLU激活函数,输出特征图尺寸为 28 × 28 × 32 28×28×32 28×28×32,空间尺寸( 28 × 28 28×28 28×28)保持不变,通道数从 192 192 192减少到了 32 32 32,说明 1 × 1 1×1 1×1卷积可以在不改变特征图空间大小的情况下,对通道数进行降维调整,减少计算量和模型参数数量 。


http://www.ppmy.cn/news/1570161.html

相关文章

Java 中的 Spring 框架,以及 Spring Boot 和 Spring Cloud 的区别?

Spring框架是一个开源的Java平台,主要用于简化企业级应用程序的开发。 它通过提供一系列的功能模块,帮助开发者解决常见的编程难题,从而提高开发效率和代码质量。 Spring框架的核心思想是“控制反转”(IoC)和“面向切…

vscode中的编辑器、终端、输出、调试控制台(转载)

在vscode中,编辑器、终端、输出和调试控制台是不同的功能区域,各自具有不同的功能和用途: 1.编辑器(Editor):编辑器是用于编写和编辑代码的主要区域。你可以在编辑器中打开、创建和保存代码文件,并进行代码的编写、 修改和格式化等操作。VSCode提供了丰富的功能来提高开发效率,…

inquirer介绍及配合lerna在Vue中使用示例

目录 安装基本用法使用多个提示框动态选择(动态选项)表单式输入配合lerna在Vue中使用示例 Inquirer 是一个用于创建交互式命令行工具的 Node.js 库,常用于收集用户输入。它提供了多种类型的提示框,可以用于创建交互式应用程序&…

无人机的续航能力和飞行效率概述!

一、续航能力对飞行效率的影响 续航时间限制任务范围: 无人机的续航能力直接决定了其能够持续执行任务的时间。续航时间短意味着无人机需要在更短的时间内完成任务或频繁更换电池,从而限制了任务的范围和复杂性。 续航影响作业效率: 长时…

数据加载器--不同文档数据格式的加载方法

文章目录 CSVHTMLJSONMarkdownPDF嵌入模型包装器 LangChain有很强的数据加载能力,而且它可以处理各种常见的数据格式,例如CSV、文件目录、HTML、JSON、Markdown及PDF等。下面,分别介绍这些不同的文档格式数据的加载方法。CSV逗号分隔值(Comma…

DeepSeek推动大语言模型发展进入新阶段

过年,最火的还是国产AI,无论是Deepseek V3 R1模型超越ChatGPT 4o,还是国产机器人春晚亮相,不仅让国人眼前一亮,也让IT界大跌眼镜。 一、Deepseek的影响力 Deepseek仅凭一己之力,让英伟达芯片商总市值大跌…

C中静态库和动态库的使用

2.使用尖括号包括 如果要使用尖括号包括头文件,有两种方法 1.将头文件移动到标准头文件目录,linux为/usr/local/include.windows下为C:\MinGW\include 2.编译时指定头文件目录,gcc -I/头文件目录 … 编译时-I参数就是用于指定头文件目录 3.静态库 将文件编译为静态库,可以…

低代码提升交付效率的公式计算

低(无)代码平台(后统称“低代码”)能够提升数字化应用建设、交付效率,已经成为IT从业人员的共识。目前,大部分CIO/CDO都能清晰定位和认知低代码的特点和作用。但仍然有人认为,使用了低代码工具软…