目标检测-Two Stage-SPP Net

news/2025/3/1 17:46:59/

文章目录

  • 前言
  • 一、SPP Net 的网络结构和流程
  • 二、SPP的创新点
  • 总结


前言

SPP Net:Spatial Pyramid Pooling Net(空间金字塔池化网络)

SPP-Net是出自何凯明教授于2015年发表在IEEE上的论文-《Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition》

前文目标检测-Two Stage-RCNN中提到RCNN的主要缺点如下:

  1. 2000候选框都需要进行CNN提特征+SVM分类,计算量很大
  2. 所有候选框在输入CNN前都裁剪/缩放(crop/warp)成统一大小,会造成变形失真等问题,从而影响精度(见下图)

在这里插入图片描述

SPP Net 针对上述缺点做了改进


提示:以下是本篇文章正文内容,下面内容可供参考

一、SPP Net 的网络结构和流程

  1. 使用EdgeBoxes提取2,000个候选窗口(candidate windows)
  2. 预训练CNN模型(ZF)+ 微调(fine-tuning) / 从头开始训练模型
  3. 调整图像的大小,使min(w,h)=s,并使用CNN网络从整个图像中提取特征图(feature maps)

ps:输入影像大小可以是任意的,因此feature map的大小也是任意的

  1. 使用线性模型将候选窗口在原图的位置映射到卷积层特征图,以获取每个候选窗口的特征图(feature maps)
  2. 通过空间金字塔池化层(Spatial Pyramid Pooling Layer)将每个候选窗口feature map转化为固定大小

ps:以下图举例来说,SPP以3级空间金字塔(4×4,2×2,1×1)来提取特征,就可以得到16+4+1=21种不同的块(Spatial bins),对每个块进行池化操作,最终得到固定大小为21×256的输出
在这里插入图片描述
实际使用了4级空间金字塔(1×1, 2×2, 3×3, 6×6),这会为每个候选窗口生成12800d(256×50)的表示

  1. 将经过SPP Layer层的得到的候选窗口的表示(12800d)输入全连接网络
  2. 训练一个SVM分类器,根据全连接网络输出特征进行分类,利用非极大值抑制(NMS)去除冗余候选区
  3. 训练一个回归模型,精修正确的候选框位置及大小

在这里插入图片描述

二、SPP的创新点

  1. 相比于RCNN先提特征后卷积,SPP Net先卷积后提特征,因此只需要一次卷积,相比于RCNN节省了大量计算时间在这里插入图片描述
  2. 使用SPP Layer固定输出大小,改善了warp/crop这种预处理方法可能造成的图像失真从而导致识别精度下降的问题
  3. 使用了多尺度训练(224和180)提高了精度

ps:输入的大小可以是任意的,使得网络可用于多尺度训练


总结

尽管相比于RCNN,SPP Net提高了精度和速度,但是仍然是分开训练多个模型,模型训练难度大且繁杂。

尽管比RCNN快10-100倍,但仍然很慢

SPP Net无法更新空间金字塔池化层以下的权重,根本原因是,当每个训练样本来自不同影像时,通过SPP层的反向传播效率很低


http://www.ppmy.cn/news/1285057.html

相关文章

Linux创建用户、删除用户、切换用户等操作详解

一直在玩liunx系统,但是却一直没静下心来看下增删用户、用户组、用户目录等操作,今天有时间一起看下这些操作,大家有想学习的可以看下去也 一、用户 1、添加用户 # 基本语法 useradd 用户名useradd zhishuseo# 说明 # 当创建用户成功后&am…

Live800:客户体验策略是什么?企业如何制定客户体验策略?

客户体验策略是企业为了提升顾客对产品或服务的感知和满意度而采取的一系列措施和方法。它关注的是如何创造一个积极、愉悦和有价值的购买过程,从而建立长期的客户关系和忠诚度。客户体验策略是企业成功的关键之一,因为它能够帮助企业在竞争激烈的市场中…

【建议收藏】10 大常见黑客技术,你遇到过几种?

黑客攻击: 简单的黑客攻击,黑客可以了解您可能不想透露的未经授权的个人信息。那么我们了解这些常见的黑客技术,如网络钓鱼、DDoS、点击劫持等,是可以为您的人身安全派上用场。 由于这些原因,了解一些通常用于以未经…

增量式旋转编码器在STM32平台上的应用

背景 旋钮是仪器仪表上一种常见的输入设备,它的内部是一个旋转编码器,知乎上的这篇科普文章对其工作原理做了深入浅出的介绍。 我们公司的功率分析仪的前面板也用到了该类设备,最近前面板的MCU从MSP430切换成了STM32,因此我要将…

SpringBoot项目部署及多环境

1、多环境 2、项目部署上线 原始前端 / 后端项目宝塔Linux容器容器平台 3、前后端联调 4、项目扩展和规划 多环境 程序员鱼皮-参考文章 本地开发:localhost(127.0.0.1) 多环境:指同一套项目代码在把不同的阶段需要根据实际…

【电商项目实战】MD5登录加密及JSR303自定义注解

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是Java方文山,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的专栏《电商项目实战》。🎯🎯 &am…

leetcode344. 反转字符串

题目描述 编写一个函数,其作用是将输入的字符串反转过来。输入字符串以字符数组 s 的形式给出。 不要给另外的数组分配额外的空间,你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。 示例 1: 输入:s ["h&quo…

算法训练第四十九天|121. 买卖股票的最佳时机、122. 买卖股票的最佳时机 II

121. 买卖股票的最佳时机: 题目链接 给定一个数组 prices ,它的第 i 个元素 prices[i] 表示一支给定股票第 i 天的价格。 你只能选择 某一天 买入这只股票,并选择在 未来的某一个不同的日子 卖出该股票。设计一个算法来计算你所能获取的最大…