深度学习重要论文阅读笔记 ResNet (2025.2.26)

devtools/2025/3/4 8:39:27/

文章目录

    • 问题背景
    • 数据预处理
    • 神经网络模型
    • 模型性能
    • 知识点积累
    • 英语单词积累

问题背景

  • 随着神经网络变得更深(层数变多),模型的训练过程也会变得更加困难。
  • 当神经网络的深度增加,就会出现梯度消失和梯度下降现象,妨碍模型的收敛。不过,这种情况可以通过归一化的模型初始化和中间的归一化层基本解决。
  • 但是,尽管在增加了归一化技术的情况下很深的神经网络可以收敛,又出现了另外一个问题,即随着模型深度的增加,模型的准确率反而下降。这个问题不是由于过拟合引起的,因为模型的训练误差也会增加。
  • 按理说,更深的模型得到的结果应该是浅的模型的结果的子集,因此至少不应该准确性更低,因为新增加的层即使不能对前一些层的输出结果进行进一步的优化,将输入原封不动地输出出来也是不会降低模型的训练误差的。

数据预处理

  • 图像裁剪:将图像的短边随机裁剪到 [256, 480] 的范围内,然后将图像及其水平翻转结果中中随机裁剪出一个 224 × 224 的图像块。
  • 像素处理:每一个像素都减去该像素在整个数据集中的平均值,并进行了一些颜色增强处理(大概就是调一调图像的亮度和饱和度之类)。

神经网络模型

  • 基本思路:显式地让神经网络中输出层学习的函数是原有的网络输出和网络输入之间的差值,而不是直接学习输出。作者们认为这样的网络对于模型来说学习难度更低。
  • 实现方式:在模型中增加”捷径连接“可以实现,即增加跳过一个或多个层的连接通路。这些连接通路没有增加额外的参数,也不会增加计算复杂性。
  • 输入和输出维度不同的情况:目前的 ResNet 取折中,即只在需要进行维度投影的地方进行投影,而不进行额外的投影了。
    • 全连接层投影:如果残差块的输入和输出的维度不同,可以通过对输入进行线性投影(即通过一个全连接层)来实现尺寸匹配,只有尺寸匹配的两个向量才能进行逐元素的加法。
    • 卷积层 1 × 1 卷积:对于卷积层输入和输出维度不同,可以通过一个 1 × 1 的卷积,来不改变输入的特征图的长度和高度,而只修改其通道的数量,可以理解为也就是一种全连接操作。
    • 零填充:对于全连接层,将输出比输入多出来的那些维度的输入用 0 进行填充。
  • 残差块中网络的层数和类型:对于层数,作者们在实验中尝试了两层或三层,结果都是可行的,他们认为更多层也是可能的;但是,如果里面只有一个神经网络层,经过实验之后没有发现起作用;对于类型,作者们提出全连接层和卷积层都是可行的。
  • 瓶颈结构设计:当神经网络模型的深度过深时,在模型中添加了一种瓶颈结构。这种结构在一个残差块中,先对输入进行降维,然后再对中间得到的低维结果进行升维。
  • 激活函数:该神经网络中使用的激活函数是 ReLU
  • 归一化方法:在模型中每一个卷积层之后,激活函数之前加入了一个批量归一化层(Batch Normalization)。
  • 优化器:使用 SGD 对模型进行优化训练,批次大小设置为 256。学习率从 0.1 开始,当错误率停滞后,就将学习率除以 10。优化器使用了 0.9 的动量和 0.0001 的权重衰减。
  • 迭代次数:模型训练总共迭代了六万次。
  • 其他注意事项:没有使用 DropoutMaxout 技术(因为没有全连接层了,所以没有必要)。
  • 测试方法:对于一张图像,首先将其缩放到不同的大小,再分别从每一个大小的图像中随机抽取出 10 个子图像块,然后对这些图像块分别进行预测,把结果进行投票平均。对于刷榜,这样的方法挺有作用,但是实际上不会这样使用,因为花费太高。
  • 模型型号:有18层、34层、50层、101层、152层共五种版本,这些不同版本的模型的区别是其中包含的不同类型的残差块的个数不同。

模型性能

  • 使用了残差连接的模型可以更方便地进行优化,并且能够从显著更深的模型结构中获得比传统模型高得多的准确性。与之对比,没有使用残差连接的神经网络的训练误差更高。
  • 使用 ImageNet 数据集构造的一个 152 层的神经网络,比 VGG 的网络层数多八倍,但是复杂度却更低。由多个这样的神经网络构成的集群在 ImageNet 的测试集上实现了 3.57% 的 top-5 错误率,赢得了2015年 ImageNet 大规模视觉识别挑战赛的冠军。
  • CIFAR-10 这样的较小的数据集上,也可以训练超过 100 层甚至超过 1000 层的神经网络。
  • COCO 目标检测数据集上训练的模型相较于之前的模型有 28% 的相对提升。
  • 该模型还赢得了 ImageNet 目标检测、ImageNet 定位、COCO 目标检测和 COCO 图像分割的冠军。

知识点积累

  • 神经网络深度的重要性:神经网络的深度对于很多视觉识别任务来说都是非常重要的。网络的深度增加,模型可以更好地捕获图像中的低水平、中等水平和高水平的特征。

英语单词积累

  • reformulate 重新制订
  • notorious 臭名昭著的
  • plateaus 停滞

http://www.ppmy.cn/devtools/164047.html

相关文章

LeetCode 解题思路 3(Hot 100)

解题思路: 初始化指针: 左指针指向数组起始位置,右指针指向数组末尾。计算当前面积: 左右指针相遇前所围成的矩形面积。​更新最大面积: 比较当前面积与已知最大面积。​移动指针: 移动较高指针无法获得更…

从头开始学SpringMVC—04文件处理拦截器异常处理执行流程

1)文件上传和下载 2)拦截器的使用 3)异常处理器 4)执行流程分析 目录 1.文件上传和下载 1.1文件下载 1.2文件上传 ①添加依赖: ②在SpringMVC的配置文件中添加配置: ③控制器方法: 2.拦截…

华为hcia——Datacom实验指南——STP工作基本原理及STP/RSTP基本功能配置

什么时候需要用到STP 在二层交换网络中,为了避免环路产生。 什么是STP STP生成树协议,是用来在冗余链路上消除二层环路。在众多交换机中,需要设置出一个根桥,其余的交换机称为非根桥,根桥是整个交换网络的核心&…

生成网页链接二维码

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>生成二维码</title><script src"http…

【Java项目】基于Spring Boot的旅游管理系统

【Java项目】基于Spring Boot的旅游管理系统 技术简介&#xff1a;采用Java技术、Spring Boot框架、MySQL数据库等实现。 系统简介&#xff1a;旅游管理系统是一个基于Web的在线平台&#xff0c;主要分为前台和后台两大功能模块。前台功能模块包括&#xff08;1&#xff09;首…

蓝桥杯备赛-前缀和-可获得的最小取值

问题描述 妮妮学姐手头有一个长度为 nn 的数组 aa&#xff0c;她想进行 kk 次操作来取出数组中的元素。每次操作必须选择以下两种操作之一&#xff1a; 取出数组中的最大元素。取出数组中的最小元素和次小元素。 妮妮学姐希望在进行完 kk 次操作后&#xff0c;取出的数的和最…

网络安全员证书

软考网络安全员证书&#xff1a;信息安全领域的黄金标准 随着信息技术的飞速发展&#xff0c;网络安全问题日益凸显&#xff0c;网络安全员的需求也日益增加。软考网络安全员证书作为信息安全领域的黄金标准&#xff0c;对于网络安全从业者来说具有重要意义。本文将详细介绍…

行为型模式 - 观察者模式 (Publish/Subscribe)

行为型模式 - 观察者模式 (Publish/Subscribe) 又称作为订阅发布模式&#xff08;Publish-Subscribe Pattern&#xff09;是一种消息传递模式&#xff0c;在该模式中&#xff0c;发送者&#xff08;发布者&#xff09;不会直接将消息发送给特定的接收者&#xff08;订阅者&…