12.7深度学习_经典神经网络_VGG

news/2024/12/20 20:15:44/

一、VGG神经网络

​ VGG的亮点在于它通过堆叠多个卷积层,以小的卷积核和池化层的方式来增加网络深度,从而实现高精度的图像识别。这种方法可以有效地捕获图像中的高级特征,并通过不断拟合训练数据来提高识别准确率。

1. 小卷积作用

​ DC Ciresan等人研究表明使用更小的卷积是有利的。牛津大学Visual Geometry Group提出VGG,使用了大量小卷积 核,获得了ILSVRC 2014分类任务第2名。

"D": [64, 64, "M", 128, 128, "M", 256, 256, 256, "M", 512, 512, 512, "M", 512, 512, 512, "M"],

​

1.1 感受野的作用

​ 感受野是个相对概念,某层feature map上的元素看到前面不同层上的区域范围是不同的,通常在不特殊指定的情况下,感受野指的是看到输入图像上的区域。

  • 网络层数增加(非线性表达能力增加)
  • 网络参数数量减少

2. VGG版本

根据深度不同,有VGG11,VGG13,VGG16,VGG19。在日常使用过程中一般使用16层的那个,即下图中的D。

cfgs = {"A": [64, "M", 128, "M", 256, 256, "M", 512, 512, "M", 512, 512, "M"],"B": [64, 64, "M", 128, 128, "M", 256, 256, "M", 512, 512, "M", 512, 512, "M"],"D": [64, 64, "M", 128, 128, "M", 256, 256, 256, "M", 512, 512, 512, "M", 512, 512, 512, "M"],"E": [64, 64, "M", 128, 128, "M", 256, 256, 256, 256, "M", 512, 512, 512, 512, "M", 512, 512, 512, 512, "M"],
}

self.classifier = nn.Sequential(nn.Linear(512 * 7 * 7, 4096),nn.ReLU(True),nn.Dropout(p=dropout),nn.Linear(4096, 4096),nn.ReLU(True),nn.Dropout(p=dropout),nn.Linear(4096, num_classes),)

下图展示了他们的表现效果:

3. 存在的问题

尽管VGG在许多方面都表现优秀,但它也有一些缺陷:

  1. 该网络架构非常大,并且需要大量的计算资源来训练。这意味着,如果你想在较小的设备上使用VGG,比如移动设备或个人电脑,会发现它非常慢,并且可能无法获得足够的性能。
  2. 由于VGG网络架构非常深,它可能会导致梯度消失或爆炸的问题。这是由于在非常深的神经网络中,梯度在传播过程中可能会变得非常小或非常大,从而导致模型无法正常训练。

因此,VGG网络架构虽然在许多方面都非常优秀,但是要注意这些缺点可能导致的问题。

4. VGG网络测试

将全连接替换为卷积,从而适应不同输入大小的图。

  • 第1个全连接层转换为7×7的卷积层
  • 后两个全连接层转换为1×1的卷积层
  • 得到一个空间维度可变的多通道的概率图(class score map),空间维度求和平均作为预测概率

4.1 单尺度测试

  • 随着网络深度增加,总体性能变好。
  • 1×1卷积加深网络深度有用(C比B强)。
  • 用1个5×5卷积替换B的2个3×3卷积,性能下降7%。
  • 网络深度的简单增加使得优化难度增加,单尺度 VGG19训练结果可能不如VGG16。
  • 多尺度裁剪训练(scale jittering)有助于提升性能。

4.2 多尺度测试

相比于单尺度测试,有进一步 的性能提升。

单尺度训练的测试尺度:{S − 32, S, S + 32}

多尺度训练的测试尺度:{Smin, 0.5(Smin + Smax), Smax}

4.3 密集测试与多尺度裁剪

训练尺度:[256; 512]

测试尺度: {256, 384, 512}

多尺度裁剪更好,两者可以互补。

4.4 多模型集成

7个模型集成最小误差7.3%,2个最好的模型集成最小误差6.8%。

4.5 与其他模型对比

​ 单模型精度VGG(7.0%)强于GoogLeNet(7.9%)

5. VGG总体特征

与AlexNet同为链式结构,而且更加简单

  • 结构非常简洁,整个网络使用了同样大小的卷积核尺寸(3×3)和最大池化尺寸(2×2)
  • 几个小滤波器(3×3)卷积层的组合比一个大滤波器(5×5或7×7)卷积层好
  • 层数更深更宽(11层、13层、16层、19层)
  • 池化核变小且为偶数
  • 验证了通过不断加深网络结构可以提升性能

http://www.ppmy.cn/news/1556721.html

相关文章

单步调试Android Framework——App冷启动

纸上得来终觉浅,绝知此事要躬行。 —— [宋]陆游 基于aosp_cf_x86_64_phone-trunk_staging-eng , 下面是具体断点位置。 第一部分,桌面launcher进程 com.android.launcher3.touch.ItemClickHandler onClickonClickAppShortcutstartAppShor…

数据结构----链表头插中插尾插

一、链表的基本概念 链表是一种线性数据结构,它由一系列节点组成。每个节点包含两个主要部分: 数据域:用于存储数据元素,可以是任何类型的数据,如整数、字符、结构体等。指针域:用于存储下一个节点&#…

ilqr算法原理以及常见自动驾驶轨迹优化问题建模

1. ilqr ILQR算法是基于nominal trajectory ( x ~ , u ~ ) (\tilde{x}, \tilde{u}) (x~,u~)来优化求解的。ILQR是求解状态变量和控制变量的增量序列 ( δ x ∗ , δ u ∗ ) (\delta x^*, \delta u^*) (δx∗,δu∗)求解轨迹的局部最优值。 1.1 无约束轨迹优化问题形式 x ∗ ,…

如何制作搞笑配音视频?操作方法

在数字娱乐盛行的今天,搞笑配音视频凭借其独特的幽默感和创意,在网络上赢得了大量观众的喜爱。如果你也想尝试制作一部让人捧腹的搞笑配音视频,那么请跟随以下步骤,从撰写搞笑文案到视频配音剪辑,一步步打造你的作品。…

Spark-Streaming性能调优

一、概览 从集群上的Spark Streaming应用程序中获得最佳性能需要一些调整。一般会考虑2个因素: 通过高效利用集群资源,减少每批数据的流转时长设置正确的批量大小,以便批量数据可以在接收到时尽快处理(即数据处理跟上数据摄取&a…

基于SpringBoot的嗨玩旅游网站:一站式旅游信息服务平台的设计与实现

摘要 在旅游需求日益增长的今天,一个全面、便捷的旅游信息服务平台显得尤为重要。嗨玩旅游网站正是为了满足这一需求而设计的在线平台,它提供了包括景点信息、旅游线路、商品信息、社区信息和活动推广等在内的丰富旅游目的地信息,旨在帮助用…

J8学习打卡笔记

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 Inception v1算法实战与解析 导入数据数据预处理划分数据集搭建模型训练模型正式训练结果可视化详细网络结构图个人总结 import os, PIL, random, pathlib imp…

航电系统组成架构详解!

一、航电系统的组成架构 航电系统通常由多个子系统组成,这些子系统协同工作,确保飞机的正常飞行和高效管理。以下是一些关键的子系统: 人机接口: 显示系统:包括平显(HUD)、头盔显示器&#x…