【HyperLearner】《What Can Help Pedestrian Detection?》

news/2024/9/23 2:22:14/

在这里插入图片描述

CVPR-2017


文章目录

  • 1 Background and Motivation
  • 2 Related Work
  • 3 Advantages / Contributions
  • 4 Method
    • 4.1 Channel features for pedestrian detection
    • 4.2 Integration techniques
    • 4.3 Comparison and analysis
  • 5 Jointly learn the channel features
    • 5.1 Datasets and Metrics
    • 5.2 KITTI Dataset
    • 5.3 Cityscapes dataset
    • 5.4 Caltech dataset
  • 6 Conclusion(own)


1 Background and Motivation

相比于通用目标检测,行人检测有如下两个难点

  • less discriminable from backgrounds,换句话说,the discrimination relies more on the semantic contexts.

  • accurately locate,对于 CNN 来说,convolution and pooling layers generate high-level semantic activation maps, they also blur the boundaries between closely-laid instances. 这使得精确的定位变得更加困难

在这里插入图片描述

许多应用中 CNN 与一些先验信息结合能进一步提升效果
在这里插入图片描述
what kind of extra features are effective and how they actually work to improve the CNN-based pedestrian detectors?

作者进行了探讨

2 Related Work

  • pedestrian detectors

  • Integrating channel features of different types

3 Advantages / Contributions

基于 faster rcnn 和 HyperNet 改进,提出 HyperLearner 行人检测器,多层特征融合,引入 segmentation 额外监督信息(channel features),在系列行人检测数据集上取得了提升

4 Method

4.1 Channel features for pedestrian detection

在这里插入图片描述

  • Apparent-to-semantic channels

    • ICF(Integral channel features) channel:a handy-crafted feature channel composed of LUV color channels, gradient magnitude channel, and histogram of gradient (HOG) channels——low-level but detailed information of an image

    • edge channel:由 HED network 提取——containing both detailed appearance as well as high-level semantics

    • segmentation channel:由 FCN 提取

    • heatmap channel:blur the segmentation channel into the heatmap channel.

  • Temporal channels
    e.g., optical flow(相邻时间帧中提取光流通道,《The computation of optical flow》1995) and motion

  • Depth channels
    DispNet

4.2 Integration techniques

在这里插入图片描述
faster RCNN 的 3 scales and 3 ratios to 5 scales and 7 ratios,为了获得更高分辨率的信息,除去了所有的 stage5 层

channel features 作为输入

side branch consists of several convolution layers (with kernel size 3, padding 1 and stride 1) and max pooling layers (with kernel size 2 and stride 2), outputing an 128-channel activation maps of 1/8 input size

在这里插入图片描述

pretrained side branch 的含义如下

we employed to pretrain the side branch is to train a Faster R-CNN detector which completely relies on the side branch and intialize the side branch with the weights from this network.

4.3 Comparison and analysis

在这里插入图片描述
看到 segmentation channel feature 比较猛

特别是小目标的提升,在输入分辨率为原始大小的时候(1x)非常明显

在这里插入图片描述

在 2x 输入分辨率实验,高层语义信息但没有低级的明显特征(即热图通道)未能超过 1X 的实验的效果。作者认为,当图像以大的scale输入时,低级别的细节将显示出更大的重要性。——【论文解读】行人检测:What Can Help Pedestrian Detection?(CVPR’17)

在这里插入图片描述
高分辨率输入时,edge 信息可以降低误检率,提升定位精度

5 Jointly learn the channel features

上节是把 channel feature 作为网络的输入,本小节提出 HyperLearner,把 channel features 作为监督信号,这样推理的时候就不需要多输入了(channel features 的获取往往也涉及到了另外一个网络)

在这里插入图片描述

上面橙黄色特征图为 Aggregated activation map

损失函数为

L=LCFN+λ1LRPNcls+λ2LRPNbbox+λ3LFRCNNcls+λ4LFRCNNbboxL = L_{CFN} + \lambda_1 L_{RPN_{cls}} + \lambda_2 L_{RPN_{bbox}} + \lambda_3 L_{FRCNN_{cls}} + \lambda_4 L_{FRCNN_{bbox}}L=LCFN+λ1LRPNcls+λ2LRPNbbox+λ3LFRCNNcls+λ4LFRCNNbbox

其中 LCFNL_{CFN}LCFN

1H×W∑(x,y)l(Sx,y,Cx,y)\frac{1}{H \times W} \sum_{(x,y)} l (S_{x,y}, C_{x,y})H×W1(x,y)l(Sx,y,Cx,y)

segmentation map 中 lll 为 cross-entropy

训练的时候采用了 Multi-stage training,四步走

  • only CFN
  • only RPN
  • only FRCNN
  • together

5.1 Datasets and Metrics

  • KITTI:pedestrian and cyclist 两类
  • Caltech Pedestrian:2, 975 training and 500 validation images with fine annotations, 20, 000 training images with coarse annotations
  • Cityscapes

5.2 KITTI Dataset

在这里插入图片描述

5.3 Cityscapes dataset

在这里插入图片描述
在这里插入图片描述

5.4 Caltech dataset

在这里插入图片描述

6 Conclusion(own)

semantic channel features can help detectors discriminate hard positive samples and negative samples at low resolution, while apparent channel features inhibit false positives of backgrounds and improve localization accuracy at high resolution.


《Integral channel features》(2009)

ICF
在这里插入图片描述
在这里插入图片描述


《Holistically-nested edge detection》(ICCV-2015)

HED

在这里插入图片描述

在这里插入图片描述


光流,场景流

Optical Flow 光流

光流是空间运动物体在成像平面上的像素运动的瞬时速度。 通常将一个描述点的瞬时速度的二维矢量 u⃗=(u,v)\vec u = (u,v)u=(u,v) 称为光流矢量——【入门向】光流法(optical flow)基本原理+深度学习中的应用【FlowNet】【RAFT】

Scene Flow 场景流

场景流指空间中场景运动形成的三维运动场,论文中使用 Disparity,Disparity change 和 Optional Flow 表示。
光流是平面物体运动的二维信息,场景流则包括了空间中物体运动的三维信息。——论文阅读笔记之Dispnet

Scene Flow 可以理解为 3D 的光流,数据换成了点云,Flow 是用 xyz 三个坐标表示。与目标检测相似

Estimating scene flow means providing the depth and 3D motion vectors of all visible points in a stereo video.

It is the “royal league” task when it comes to reconstruction and motion estimation and provides an important basis for numerous higher-level challenges such as advanced driver assistance and autonomous systems.

在这里插入图片描述
Diagram of disparity change. As the object ‘A’ moves toward the eyes to position ‘B’, its binocular disparity increases as its position on the retina changes. The purple arrows show direction of motion of the real object and the projection of the object on the retina.

在这里插入图片描述
《Stereopsis: are we assessing it in enough depth?》(Clinical and Experimental Optometry, 2018)

《A Large Dataset to Train Convolutional Networks for Disparity, Optical Flow, and Scene Flow Estimation》(CVPR-2016)

DispNet

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述


《HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection》(CVPR-2016)

在这里插入图片描述


http://www.ppmy.cn/news/40334.html

相关文章

windows编程(2)-消息与循环

文章首发于:My Blog 欢迎大佬们前来逛逛 win32打开控制台的方法 首先加入输入输出头文件 AllocConsole:为控制台分配空间 GetStdHandle:创建一个标准输入输出设备,指定其为STD_OUTPUT_HANDLE则就是一个标准输出控制台。 创建一…

测试7年,去过阿里也去过小公司,给你们年轻人一个忠告...

你眼中的软件测试岗位是怎样的?大部分人可能会给出这样的回答:“测试?简单啊,没什么技术含量,无非就是看需求、看业务手册、看设计文档、然后点点功能是否实现,麻烦点的就是测试下部署安装是否出现兼容性问…

充电桩检测设备TK4860E交流充电桩检定装置

产品特点 充电桩检测设备内置5.28 kW单相交流负载,无需携带额外负载进行测试。 宽动态范围测量技术,避免充电桩输出波动引起的测量风险。 ms级电能刷新速度,减少充电桩与标准仪器在非同步累积电能过程中引入的误差,提高累积电能…

汽车电子行业入门指南「汽车行业的英语要求与学习方法」

1. 学习英语的几个阶段 在汽车行业中,英语是一种重要的工作语言。为了更好地掌握这个行业,我们需要了解英语熟练度的几个等级。英语熟练度通常被分为以下几个等级: 初级水平:能够理解常见的日常用语和简单的句子。在沟通中需要依…

Transformer 杂记

Transformer输入的是token,来自语言序列的启发。卷积神经网络(CNN)是如何进行物种分类的.它实际是直接对特征进行识别,也就是卷积神经网络最基本的作用:提取图像的特征。例如:卷积神经网络判断一只狗的时候&#xff0c…

C++纯虚函数和抽象类详解

在C中,可以将虚函数声明为纯虚函数,语法格式为: virtual 返回值类型 函数名 (函数参数) 0; 纯虚函数没有函数体,只有函数声明,在虚函数声明的结尾加上0,表明此函数为纯虚函数。 最后的0并不表示函数返回…

浪潮:2022年净利同比增长51.39%

一、4月头条 华为的紧急回应,让东方材料21亿收购要黄? 4月10日消息,东方材料昨日晚间公告拟定增募资不超20亿元,用于向诺基亚全资子公司NSN收购TD TECH 51%股权(交易对价21.22亿元)。TD TECH剩余49%股权由…

Flink大数据量调优思路总结

目录 一、JVM内存参数调优 二、Flink内存调优 flink进程内存 jobmanager相关配置 三、netty优化