【单目3D目标检测】MonoGround论文精读与代码解析

news/2024/11/29 13:29:49/

文章目录

  • Preface
  • Abstract
  • Contributions
  • Problem Definition
  • Ground Plane Prior
    • In Paper
    • In Code
  • Pipeline
    • In Pape
    • In Code
  • Depth-Align Training
    • In Paper
    • In Code
  • Two-stage Depth Inference
    • In Paper

Preface

Qin Z, Li X. MonoGround: Detecting Monocular 3D Objects From the Ground[C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 3793-3802.
Paper
Code

Abstract

从单幅二维图像中获取三维信息本质上比较困难,主要有以下三点原因:

  • 一对多的映射关系:从2D到3D的映射是一个不适定(ill-posed)的问题,因为2D图像平面中的一个位置对应于所有共线的3D位置,这些位置存在于从相机中心到2D位置的射线中。如下图中(a)所示,这种一对多的特性使得预测物体的深度非常困难
  • 深度在图片中的表达与物体的实际高度有关:对于两个深度和位置相同的物体,如果高度不同,则在相机平面的投影中心会不同,如下图(b)所示,这样,深度的学习就必须克服对象不相关属性的干扰
  • (以上两点在实际中真的需要考虑嘛?)
  • 基于CenterNet的单目3D目标检测算法,物体的所有信息(包括深度)用一个点来表示,那么在训练过程中,对深度的监督是非常稀疏的,导致深度估计的学习不足(假设一个图像中有两辆车,那么深度图上只有两个点会被训练,而深度图上的所有其他点都被忽略)

 

Contributions

针对上述问题,本文提出在单目3D目标检测任务之前引入地平面先验(Ground Plane Prior)。在地平面先验的情况下,病态的2D到3D映射成为一个具有唯一解的适定问题。唯一解由相机射线与地平面的交点决定。深度表达不再与物体高度相关,如图2所示

本工作的主要贡献可以概括如下:

  • 提出在单目3D目标检测之前引入地平面,可以缓解ill-posed映射,消除深度的不相关关系,同时提供密集的深度监督,而不需要任何额外的数据,如LiDAR、立体和深度图像
  • 提出了一种深度对齐训练策略,以有效地学习和预测密集接地深度
  • 同时,利用稠密预测深度,提出了两阶段深度推断方法,实现了更细粒度的深度估计

单目3D目标检测中的地平面先验:

  • 地平面知识在单目3D目标检测中已经有过多次尝试。Mono3D首先尝试使用地平面来生成3D边界框建议,Ground-Aware在几何映射中引入了地平面,并提出了一个接地感知卷积模块来增强检测。在上述工作中,地平面是根据一个固定的规则定义的,例如KITTI上的摄像机高度为1.65米。这样,三维空间中固定高度为-1.65米的所有位置都将构成地平面
  • 但是本文则提出了一个可学习地平面先验,它基于一个更合理的假设,即物体应该躺在地面上。只要物体在地面上,地平面可以用物体的三维边界框底面代替。这样,所提出的地平面先验于物体的底面

单目3D目标检测中的深度估计:

  • 纯单目3D目标检测中主流的深度估计方法有两种,分别是直接回归方法和基于针孔成像模型的几何投影方法,此外,MonoFlex通过对角成对关键点的几何深度的平均值将几何深度扩展到对角关键点深度。同时,许多研究在深度估计的同时采用了不确定性,得到了较好的结果
  • 本文则在地平面先验的帮助下,提出了一种不同于上述方法的新的深度估计方法。它是一种两阶段深度推理方法,可以得到比几何深度更精确的深度估计。此外,所提出的深度估计还可以采用不确定性和对角成对关键点的扩展
     

Problem Definition

单目3D目标检测任务是从单目RGB图像中检测出3D目标(ill-posed)。除了RGB图像,还可以采用标定信息(即摄像机参数矩阵)。具体来说,对于每个物体,都需要:

  • 三维位置(x,y,z)(x, y, z)(x,y,z)
  • 大小(h,w,l)(h, w, l)(h,w,l)
  • 方向θθθ,在KITTI数据集上,俯仰角和横摇角被视为零,因此只考虑偏航角θθθ

与上述目标相对应,主流方法将整个任务划分为4个子任务,分别是2D位置(根据投影公式计算出3D位置)、深度、大小和方向估计任务。而深度估计是单眼三维目标检测的关键瓶颈,本文的工作专注于精确的深度估计
 

Ground Plane Prior

通过3D框的标注信息,来获取密集的地平面表示
整个流程如下:

  1. 首先利用物体的标注坐标信息,获取底面四个角点的坐标
  2. 利用底面四个角点的坐标,在地面随机采样,获得地面的随机采样点P3dP_{3d}P3d(此时为3D坐标)
  3. 将地面的随机采样点坐标,转换为2D图像坐标

In Paper

为了定义地平面,本文从一个合理的假设开始,即物体位于地面上。这个假设适用于所有常见的物体,如汽车、行人和骑自行车的人。在此假设下,可以用物体三维边界框的底面代替地平面。对于每个对象,我们首先获得3D空间中的底部键点k1、k2、k3k_1、k_2、k_3k1k2k3k4k_4k4。然后对由底部关键点组成的三维底面进行随机采样和插值。将R∈RN×2R \in \mathbb{R}^{N \times 2}RRN×2表示为每个元素为Ri,j∈[0,1]R_{i, j}∈[0,1]Ri,j[0,1]的随机矩阵。NNN是采样点的个数,采样的密集点可表示为:
P3d=R[k2−k1k4−k1]+k1P_{3 d}=R\left[\begin{array}{l} k_2-k_1 \\ k_4-k_1 \end{array}\right]+k_1 P3d=R[k2k1k4k1]+k1
其中P3d∈RN×3P_{3d}∈\mathbb{R}^{N \times 3}P3dRN×3包含所有采样点。假设K3×3K_{3×3}K3×3为摄像机参数矩阵。采样后将这些点投影回图像空间:
P2dT=K3×3P3dTP_{2 d}^T=K_{3 \times 3} P_{3 d}^T P2dT=K3×3P3dT
其中P2d∈RN×3P_{2d}∈\mathbb{R}^{N \times 3}P2dRN×3P2dP_{2d}P2d的第iii行 为[ui⋅zi,vi⋅zi,zi][u_i·z_i, v_i·z_i, z_i][uizi,vizi,zi],其中uiu_iuiviv_ivi为图像空间中的投影坐标,ziz_izi为该点对应的深度。

如上图所示,利用上述公式,可以得到一个密集接地的深度表示,解决了主流方法中深度监督稀疏的问题。对于不适定的2D到3D映射问题,密集的接地深度提供了地平面约束,使其成为一个适定问题,而映射的唯一解是摄像机光线与地平面的相交。此外,由于本文的公式与物体的高度没有关系,因此自然避免了不相关的相关问题。更重要的是,引入的地平面先验和密集接地深度都来自于3D边界框注释,易于访问,不需要LiDAR和深度等其他数据源

In Code

 

Pipeline

基于MonoFlex

In Pape

整体网络框架基于CenterNet和MonoFlex,如下图所示

在这里插入图片描述

  1. Backbone采用DLA34,之后分为两个branch
  2. Ground Branch负责预测Grounded Depth,并且采用了Dilated Coord Conv,原因如下:
  • 首先,Grunded Depth的估计涉及到视觉特征和位置特征,而普通卷积只能提供视觉特征,坐标卷积可以整合视觉和位置特征
  • 其次,3D坐标(x,y,z)(x, y, z)(x,y,z)zzz为深度)是2D坐标的线性变换(相机投影模型)。坐标卷积可以显式地将卷积中的二维坐标串联起来,使其成为一个外部提示,从而更好地估计深度
  1. 3D Branch基于MonoFlex,负责预测五类Attributes:
  • Heatmap[C×HS×WS][C\times\frac{H}{S}\times\frac{W}{S}][C×SH×SW]表示每个物体的中心坐标,热图越接近1,表示某类物体在该位置存在的可能性越大
  • Offsets[22×HS×WS][22\times\frac{H}{S}\times\frac{W}{S}][22×SH×SW]表示11个点(3个中心点+8个立方体顶点)在2D图像中的偏移,如下图所示:

本文中定义Offsets为:
δp=pS−⌊c2dS⌋s.t. p∈{c2d,k12d,⋯,k82d,b2d,t2d}\begin{gathered} \delta_p=\frac{p}{S}-\left\lfloor\frac{c^{2 d}}{S}\right\rfloor \\ \text { s.t. } p \in\left\{c^{2 d}, k_1^{2 d}, \cdots, k_8^{2 d}, b^{2 d}, t^{2 d}\right\} \end{gathered} δp=SpSc2d s.t. p{c2d,k12d,,k82d,b2d,t2d}
其中,SSS为Backbone的下采样率,⌊⋅⌋\left\lfloor · \right\rfloor为向下取整,假设δp∗\delta_p^*δp为GT真值,那么Offsets的损失如下:
Loffset =∑p∈{c2d,k12d,⋯,k82d,b2d,t2d}∣δp−δp∗∣L_{\text {offset }}=\sum_{p \in\left\{c^{2 d}, k_1^{2 d}, \cdots, k_8^{2 d}, b^{2 d}, t^{2 d}\right\}}\left|\delta_p-\delta_p^*\right| Loffset =p{c2d,k12d,,k82d,b2d,t2d}δpδp

  • Size[3×HS×WS][3\times\frac{H}{S}\times\frac{W}{S}][3×SH×SW]表示物体3D的长宽高预测值
  • Orientation[8×HS×WS][8\times\frac{H}{S}\times\frac{W}{S}][8×SH×SW]表示物体的偏航角(yaw),分为8部分,在KITTI数据集中,俯仰角(pitch)和旋转角(roll)均设置为0
  • Direct Depth[1×HS×WS][1\times\frac{H}{S}\times\frac{W}{S}][1×SH×SW]表示物体的直接深度
  1. 在后处理阶段:分别预测两个Depth(Grounded Depth、Geometry Depth)
  • 利用预测的Offsets,计算Geometry Depth:
    z=f⋅hh2dz=\frac{f \cdot h}{h_{2 d}} z=h2dfh
    其中,fff为相机焦距,hhh物体的3D高度,h2dh_{2d}h2db2d−t2db^{2 d}-t^{2 d}b2dt2d,即物体的2D图像像素高度。此外,本文还通过平均对角关键点的几何深度来扩展几何深度(借鉴MonoFlex)
  • 最后,通过从七个深度zpredz_{pred}zpred(1 direct depth, 3 geometry depths, 3 grounded depths)中基于不确定性的投票得到最终深度(借鉴MonoFlex):
    zfinal =(∑i=17zpred iσi)/(∑i=171σi)z_{\text {final }}=\left(\sum_{i=1}^7 \frac{z_{\text {pred }}^i}{\sigma_i}\right) /\left(\sum_{i=1}^7 \frac{1}{\sigma_i}\right) zfinal =(i=17σizpred i)/(i=17σi1)
  • 3 geometry depths:物体h2dh_{2d}h2d的表示有三种,即顶部中心和底部中心之间的距离,两对对角线的距离,如下图所示:
  • 3 grounded depths:物体底部中心b2db^{2d}b2d的深度、底部两对对角顶点的深度k12d,k32d{k^{2d}_1,k^{2d}_3}k12d,k32dk22d,k42d{k^{2d}_2,k^{2d}_4}k22d,k42d

In Code

 

Depth-Align Training

网络预测的grounded points,由均匀的网格组成,处在整数位置
而由标注信息转换的投影grounded points,则是随机分散的,即非整数位置
那么二者存在不对齐的现象
那么,本文的思路是:对投影的每个随机采样grounded points,使用其周围4个网格点的深度进行损失函数的计算,来优化非整数位置的密集深度

In Paper

在得到Grounded Depth预测图后,如何训练这种预测图是一个重要的问题,因为预测的Grounded Depth与利用标签得到的投影Grounded Depth存在不对齐的问题,即投影密集接地点分布在预测图中任意位置,而预测图由均匀的网格组成。也就是说,预测图只能用于整数位置,而投影的密集接地点分布在非整数位置。为了解决这个问题,本文提出了一种深度对齐训练方法,如下图所示:

  • 深度对齐训练的前向计算与双线性插值相同,设投影接地点为(ui,vi)(u_i, v_i)(ui,vi),深度为ziz_izi{g1,g2,g3,g4}\{g_1, g_2, g_3, g_4\}{g1,g2,g3,g4}为从左上角开始顺时针环绕的四个网格点,则第iii个点的深度预测值可以写成:
    λ1=ui−⌊ui⌋,λ2=⌈ui⌉−ui,λ3=vi−⌊vi⌋,λ4=⌈vi⌉−vi,pred i=λ2λ4g1+λ1λ4g2+λ1λ3g3+λ2λ3g4,\begin{gathered} \lambda_1=u_i-\left\lfloor u_i\right\rfloor, \lambda_2=\left\lceil u_i\right\rceil-u_i, \\ \lambda_3=v_i-\left\lfloor v_i\right\rfloor, \quad \lambda_4=\left\lceil v_i\right\rceil-v_i, \\ \text { pred }_i=\lambda_2 \lambda_4 g_1+\lambda_1 \lambda_4 g_2+\lambda_1 \lambda_3 g_3+\lambda_2 \lambda_3 g_4, \end{gathered} λ1=uiui,λ2=uiui,λ3=vivi,λ4=vivi, pred i=λ2λ4g1+λ1λ4g2+λ1λ3g3+λ2λ3g4,
  • 那么接地点的总深度损失为:
    Lda=∑i=1N∣zi−pred⁡i∣L_{d a}=\sum_{i=1}^N\left|z_i-\operatorname{pred}_i\right| Lda=i=1Nzipredi
  • 这样,我们可以直接优化非整数位置的密集深度,反向传播是根据双线性插值的权重将梯度传递给周围的网格点
  • 【疑问1】:为什么要用投影点周围的四个网格点来进行双线性插值呢?
    • 【解答1】: 计算该非整数位置的深度值和深度不确定值,便于和GT值进行loss计算
  • 【疑问2】:ggg是什么意思呢?每个网格点的深度值?
    • 【解答2】 :深度值和深度不确定值

In Code

 

Two-stage Depth Inference

目前理解:Ground Branch就是用来预测接地点,每一个接地点的深度都是唯一的,并且理论上接地点的深度,等于该点向上延伸中所有点的深度值,例如:底部中心点的深度=物体中心点的深度=顶部中心点的深度
那么,就可以利用Ground Branch来获得接地点的深度值,来辅助最终深度的生成
那么,如何知道应该利用Ground Branch中的哪些接地点呢?就需要用到3D Branch中预测出的heatmap和offsets,具体而言,需要获得物体底部中心点的坐标,然后对应到Ground Branch中获得其深度值
物体底部中心点的坐标 可以由heatmap(即物体中心点),以及offsets中的对底部中心点的偏移量来计算得到
所以,先利用3D Branch获得物体底部中心点,再转移到Ground Branch中获得其深度值(即物体中心点的深度值),即两阶段

In Paper

在CenterNet-Style的推理中,对象由特征图上的粗网格点表示,所有其他属性都由点上的特征一次性预测,称之为单阶段推理。但是粗网格点只能反映物体的粗位置,这就是为什么我们需要进一步回归GT位置和粗网格位置之间的差异
在密训练的接地深度图的帮助下,我们使用回归的细粒度位置代替粗糙的网格位置,可以实现比原来的CenterNet式深度推断更精确的深度估计,二者的区别如下图所示:

  • 第一个Ground Depth:假设⌊c2d/S⌋\left\lfloor c^{\mathbf{2 d}} / S\right\rfloorc2d/S是热图预测的中心。我们首先对中心进行回归偏移,得到物体底部中心点的精细位置b2d/S=⌊c2d/S⌋+δb2db^{\mathbf{2 d}} / S=\left\lfloor c^{\mathbf{2 d}} / S\right\rfloor+\delta_{b^{\mathbf{2 d}}}b2d/S=c2d/S+δb2d,然后对地面支路预测采用深度对齐的前向计算公式进行插值,得到精确深度。由于b2db^\mathbf{2d}b2d为物体的底部中心,因此b2db^\mathbf{2d}b2d的接地深度与c2dc^\mathbf{2d}c2d的深度完全相同,即物体的中心深度
  • 第二、三个Ground Depth:利用物体底部框的四个角点,根据三维几何结构,中心深度等于对角线关键点的平均深度。这样,可以利用得到的对角线结果求平均值,从关键点k12d,k32d和k22d,k42dk^{2d}_1, k^{2d}_3和k^{2d}_2, k^{2d}_4k12d,k32dk22d,k42d得到另外两个深度估计

http://www.ppmy.cn/news/2478.html

相关文章

软件测试行业真的饱和了吗?一线大厂年薪100W的测开岗位还很缺人!

在一线大厂,没有测试这个岗位,只有测开这个岗位。这几年,各互联网大厂技术高速更新迭代,软件测试行业也正处于转型期。传统的功能测试技术逐步淘汰,各种新的测试技术层出不穷,测试人员的薪资也水涨船高。与…

MySQL是怎样加锁的

是不是很多人都对 MySQL 加行级锁的规则搞的迷迷糊糊,对记录一会加的是 next-key 锁,一会加是间隙锁,一会又是记录锁。这次就带大家浅浅地聊一下MySQL是怎样加锁的。 什么 SQL 语句会加行级锁? InnoDB 引擎是支持行级锁的&#…

一台linux服务器最多能支持多少个TCP连接?(要区分客户端还是服务端)

参考大佬文章: 一台机器最多能撑多少个TCP连接? 今天掰扯清楚! 这个问题要分场景,先说下结论: 客户端:最多支持TCP连接数 IP数 * 端口数 IP数 * 65535,其中的IP数是由于linux下可以配置多IP服务端&a…

向 Excel 和 PowerPoint 添加可编辑地图的指南

本指南规定: 如何将 shapefile 转换为 svg 文件(如果后者不存在) 如何使用 Excel 重命名 svg 文件中的对象以使对象具有正确的地理名称,以及如何将这些添加为 PowerPoint 中的可编辑地图 这样做的目的是为那些没有或不知道该软件的人提供 QGIS 制图的替代方案。通过提供某个…

空气源热泵设备远程监控的优点

空气源热泵热水器是一种节能、环保、安全的新能源产品,也是家庭采暖、生活热水及空调制冷等方面的最佳选择。 在使用时,只需一次少量的电能就能实现连续制热和制冷,其制热效率是燃气热水器、电热水瓶和燃油热车等供热设备的数倍,因…

c++17可变参函数模板详解

c语言中对于 可变参数的处理是用va_list等一系列宏去做的 他只会生成一个函数 但是理解起来非常麻烦 因为你不得不去了解很多关于汇编层面栈帧的知识 c对于可变参数函数模板进行了改进 他会生成多个函数 而不是在一个函数里玩 个人觉得c这种方式更加先进而且更好理解 接下来让…

Clickhouse使用优化

Clickhouse使用规范 建表规范 先看下clickhouse的建表语法: CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster] (name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1],name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [TTL expr…

Win10安装Nacos

Win10安装Nacos 文章目录Win10安装Nacos前言下载Nacos安装Nacos验证前言 最近在学微服务的东西,使用的是 Spring Cloud Alibaba 生态,Nacos就是其中关键的一环。 这是 Nacos 的官网地址:https://nacos.io/zh-cn/index.html 官网的文档对于…