【OpenMMLab AI实战营第二期】目标检测与MMDetection

news/2024/10/30 15:59:37/

目标检测

目标检测的基本范式

  • 划窗

  • 使用卷积实现密集预测

  • 锚框

  • 多尺度检测与FPN

单阶段&无锚框检测器选讲

  • RPN

  • YOLO、SSD

  • Focal Loss与RetinaNet

  • FCOS

  • YOLO系列选讲

什么是目标检测

目标检测:给定一张图片,用矩形框框出所有感兴趣物体同时预测物体类别

目标检测与图像分类区别

图像分类通常只有一个物体,位于图像中央,占据主要面积,目标检测中这些都不固定

单阶段目标检测算法

单阶段检测算法概述

单阶段算法直接通过密集预测产生检测框,相比于两阶段算法,模型结构简单、速度快、易于在设备上部署

早期由于主干网络、多尺度技术等相关技术不成熟,单阶段算法在性能上不如两阶段算法,但因为速度和简洁的优势仍受到工业界青睐

随着单阶段算法性能逐渐提升,成为目标检测的主流算法

RPN(Region Proposal Network)

RPN 初步删除图像中包含物体的物质,不预测具体类别

RPN算“半个检测器”,是二阶算法 Faster RCNN的第一阶段

RPN是基于密集预测的

YOLO(You Only Look Once)

是最早的单阶段检测器之一,激发了单阶段算法的研究潮流

主干网络:自行设计的DarkNet结构,产生771024维的特征图

检测头:2层全连接层产生77组预测结果,对应77个空间位置上物体的类别和边界

YOLO的匹配与框编码

将原图切分成SS大小的格子,对应预测图上SS个位置

如果原图上某个物体中心位于某个格子内,则对应位置的预测值应给给出物体类别和边界框位置

其余位置应预测为背景类别,不关心边界框预测结果

优点:

速度快:在Pascal VOC数据集上,使用自己设计的DarkNet结构可以达到实时速度,使用相同的VGG可以达到3倍与Faster R-CNN的速度

缺点:

由于每个格子只能预测一个物体,因此对重叠物体,尤其是大量重叠的小物体容易产生漏检

直接回归边界框(无锚框)有难度,回归误差较大,YOLO V2开始使用锚框

SSD(Single Shot MultiBox Detector)

主干网络:使用VGG+额外卷积层,产生11级特征图

检测头:在6级特征图上进行密集预测,产生所有位置,不同尺度的预测结果

RetinaNet

特征生成:ResNet主管网络+FPN产生P3~P7共五级特征图,对应采样率8-128倍

多尺度锚框:每个特征图上设置3种尺寸*3种长宽比的锚框,覆盖82-813像素尺寸

密集预测头:两分支、5层卷积构成的检测头,针对每个锚框产生K个二类预测以及4个边界框偏移量

损失函数:Focal Loss

性能
在这里插入图片描述

单阶段算法面临的正负样本不均衡问题

单阶段算法共产生尺度数位置数锚框数个预测

而这些预测之中,只有少量锚框的真值为物体(正样本),大部分锚框的真值为背景(负样本)

使用类别不平衡的数据训练处的分类器倾向给出背景预测,导致漏检

朴素的分类损失不能驱动检测器在有限的能力下达到漏检和错检之间的平衡

YOLO V3

自定义的DarkNet-53主干网络和类FPN结构,产生1/8、1/16、1/32降采样率的3级特征图

在每级特征图上设置3个尺寸的锚框,锚框尺寸通过对真值狂聚类得到

两层卷积构成的密集检测头,在每个位置、针对每个锚框产生80个类别预测、4个边界框偏移量、1个objectness预测,每级特征图3*(80+4+1)=255通道的预测值

得益于相对轻巧的主干网络设计、YOLO V3的速度圆冠榆RetinaNet

YOLO V5

模型结构进一步改进、使用CSPNarkNet主干网络、PAFPN多尺度模块

训练时使用更多数据增强,如Mosaic、MixUP

使用自对抗训练技术(SAT)提高检测器的鲁棒性

无锚框目标检测算法

基于锚框

  • Faster R-CNN、YOLO V3/V5、RetinaNet都是基于锚框的检测算法

  • 模型基于特征预测对应位置中是否有物体,以及精确位置相对于锚框的偏移量

  • 实现复杂,需要手动设置锚框相关超参数(如大小、长宽比、数量等),设置不当影响检测精度

无锚框

  • 不依赖锚框,模型基于特征直接预测对应位置是否有物体以及边界框的位置
  • 边界框预测完全基于模型学习,不需要人工调整超参数

FOCS(Fully Convolutional One-Stage)

模型结构与RetinaNet基本相同:主干网络+FPN+两分支、5层卷积构成的密集预测头

预测目标不同:对于每个点位、预测类别、边界框位置和中心度三组数值

FCOS的预测目标&匹配规则

如果某个特征位于某个真值框的内部,且特征的层级与真值框的尺度匹配,则该特征对应正样本,应预测物体的

  • 类别概率

  • 边界框相对于该中心位置的偏移量

  • 中心度,对于衡量预测框的优劣

如果某个特征不位于真值框内部,或与真值框尺度不匹配、对应负样本,只需预测类别为背景

对比:Anchor-Based算法基于IOU匹配,通常Anchor需要预测与之交并比大于阈值的框

FCOS的多尺度匹配

Anchor-based算法根据锚框和真值框的IoU为锚框匹配真值框通常,锚框会匹配到同尺度的真值框,小物体由底层特征预测,大物体由高层特征图预测

问题:Anchor-free 算法没有锚框,真值框如何匹配到不同尺度?

匹配方案:每层特征图只负责预测特定大小的物体,例如右图中512像素以上的物体匹配到P7上

由于重叠的物体尺度通常不同,同一位置重叠的真值框会被分配到不同的特征层,从而避免同一个位置需要预测两个物体的情形

CenterNet

针对2D检测的算法,将传统检测算法中的“以框表示物体”变成“以中心点表示物体”,将2D检测建模为关键点检测和额外的回归任务,一个框架可以同时覆盖2D检测、3D检测、姿态估计等一系列任务。

YOLO X

以YOLO V3为基准模型改进的无锚框检测器

  • Decouple Head结构

  • 更多现代数据增强策略

  • SimOTA分配策略

  • 从小到大的一系列模型

SOTA的精度和速度


http://www.ppmy.cn/news/271263.html

相关文章

【PWN · ret2libc | Canary】[2021 鹤城杯]littleof

最近比较忙,这道题用了好长时间来debug,甚至贡献了第一次在csdn上提问。。。 目录 前言 一、题目重述&思路分析 二、exp 三、Canary 四、萌新遇到的困难 总结 前言 Canary作为经典且基本的栈保护措施,在后期的题目中必然是基本标…

[Java水平分表?这个表是怎么来的?]

目录 前言: 记录一个小笔记 背景: 示例代码,使用 ShardingSphere 创建和删除水平分表: 需要注意的是,在使用水平分表时,需要考虑数据的一致性和查询效率等问题 前言: 记录一个小笔记 背景: 水平分表是通过代码创建的&#xf…

杭州电信域名解析服务器,浙江电信的DNS是多少?

1、湖州、嘉兴、绍兴、舟山 202.101.172.36 2、金华、衢州、丽水、台州 202.101.172.37 3、温州 202.96.104.16 4、宁波 202.96.104.15 5、杭州 202.101.172.35 行政区域名 行政区域名是按照我国的各个行政区划分而成的,其划分标准依照国家技术监督局发布的国家标准…

浙江人工智能边缘计算服务器,中兴通讯发布边缘计算服务器 实现边缘人工智能...

官网消息,2019年世界移动大会期间,发布了ES600S MEC服务器,该款服务器搭载最新英特尔;至强;Scalable processor,配合AI加速卡,使其在边缘侧具备很强的神经网络推理能力。 此次中兴通讯发布的ES6…

华为鲲鹏泰山服务器系统安装,鲲鹏处理器正式商用:浙江移动营业厅用上华为泰山服务器...

IT之家7月17日消息 据华为官网消息,7月10日,浙江移动营业厅前台系统成功迁移至基于鲲鹏处理器的华为TaiShan服务器,这是全球首例基于鲲鹏处理器的运营商IT应用系统商用。 据华为官方介绍,鲲鹏处理器具有高性能,高带宽&…

服务器该如何有效防止勒索病毒入侵

2020上半年勒索病毒依旧十分活跃,但总体感染情况较去年略有下降。从勒索病毒攻击的地区分布看,广东、浙江、山东、河南、上海等经济较发达地区成为重点目标,其它省份也遭受到不同程度攻击。从勒索病毒影响的行业看,数据价值较高的…

北京联通dns服务器位置,全国联通DNS服务器地址

《全国联通DNS服务器地址》由会员分享,可在线阅读,更多相关《全国联通DNS服务器地址(5页珍藏版)》请在人人文库网上搜索。 1、全国联通服务器DNS首尾地址124.161.97.234124.161.97.234四川省 联通DNS服务器124.161.97.238124.161.97.238四川省 联通DNS服…

如何计算服务器能够承受多大的PV?

你想建设一个能承受500万PV/每天的网站吗? 500万PV是什么概念?服务器每秒要处理多少个请求才能应对?如果计算呢? PV是什么: PV是page view的简写。PV是指页面的访问次数,每打开或刷新一次页面,就算做一个pv。 计算模型: 每台…