【论文笔记】Co-Fix3D: Enhancing 3D Object Detection with Collaborative Refinement

ops/2024/9/24 6:17:42/

原文链接:https://arxiv.org/abs/2408.07999

简介:自动驾驶中准确检测遮挡或远处物体(称为弱正样本)较为困难,这是因为查询初始化时过度依赖置信度热图,导致了高虚警率并掩盖了弱检测。本文提出Co-Fix3D,使用BEV表达的协同混合多阶段并行查询生成机制。模型包含局部-全局特征增强(LGE)模块,以细化BEV特征,从而更有效地突出弱正样本。使用离散小波变换(DWT)进行定位区域的噪声抑制和特征细化,并引入注意力机制以优化全局BEV特征。此外,LGE的多阶段并行也增加了BEV查询,从而增大了选中弱正样本的概率。实验表明,Co-Fix3D在nuScenes数据集上实现了SotA性能。

1. 概述

在这里插入图片描述
Co-Fix3D包含点云模态和多模态版本,对于点云版本,使用3D主干处理并压缩高度得到BEV特征 F L i D A R ∈ R H × W × 4 C F_{LiDAR}\in\mathbb R^{H\times W\times 4C} FLiDARRH×W×4C,将通道维度减少到 C C C后,得到初始BEV特征 F 0 F_0 F0;对于多模态版本,使用2D主干和LSS得到图像的BEV特征 F C a m e r a ∈ R H × W × C F_{Camera}\in\mathbb R^{H\times W\times C} FCameraRH×W×C,随后进行特征融合得到初始BEV特征 F 0 F_0 F0 F 0 F_0 F0会在LGE模块中被优化,生成BEV热图 H ∈ R H × W × c H\in\mathbb R^{H\times W\times c} HRH×W×c,其中 c c c为类别数。

本文使用多阶段方法生成查询,并使用掩膜机制逐步过滤每个阶段,使得并行的LGE模块受不同的真值监督。掩膜 M ∈ { 0 , 1 } H × W × 1 M\in\{0,1\}^{H\times W\times 1} M{0,1}H×W×1被初始化为全1。第 i i i阶段中,选择热图的前 k k k个值,并将掩膜中相应位置 ( w , h ) (w,h) (w,h)和类别 c c c的值 M i ( w , h , c ) M_i(w,h,c) Mi(w,h,c)设置为0。这样,一旦某区域被选择,后续阶段不会再探索该区域。随后,使用边界框级别的池化方法处理掩膜中为0的区域,以保证生成的查询尽可能在BEV均匀分布。此后,将掩膜与真实热图相乘,使得不同阶段关注不同的目标。

训练时使用高斯focal损失,保证最后两阶段的GT数量和第一阶段的相匹配。

2. 局部与全局增强模块

在这里插入图片描述
LGE模块用于减小噪声和修正扭曲的BEV特征。其有效整合了局部和全局去噪方法,以增强精度和效率。其包含三部分:用于局部优化的小波编码模块、用于全局优化的混合编码模块,和后处理的小波解码模块。

2.1 小波编码

本文利用DWT进行小波编码,以恢复BEV特征。DWT将BEV分解为4个通道:HH,HL,LH和LL。具体过程如下:
F 1 = R e d u c e ( F 0 ) F L L , F L H , F H L , F H H = D W T ( F 1 ) F 2 = C o n c a t ( F L L , F L H , F H L , F H H ) F_1=Reduce(F_0)\\ F_{LL},F_{LH},F_{HL},F_{HH}=DWT(F_1)\\ F_2=Concat(F_{LL},F_{LH},F_{HL},F_{HH}) F1=Reduce(F0)FLL,FLH,FHL,FHH=DWT(F1)F2=Concat(FLL,FLH,FHL,FHH)

其中 R e d u c e ( ⋅ ) Reduce(\cdot) Reduce()为将通道维度压缩到 C 4 \frac C4 4C F 1 ∈ R H × W × C 4 F_1\in\mathbb R^{H\times W\times \frac C4} F1RH×W×4C F L L , F L H , F H L , F H H ∈ R H 2 × W 2 × C 4 F_{LL},F_{LH},F_{HL},F_{HH}\in\mathbb R^{\frac H2\times\frac W2\times\frac C4} FLL,FLH,FHL,FHHR2H×2W×4C F 2 ∈ R H 2 × W 2 × C F_2\in\mathbb R^{\frac H2\times\frac W2\times C} F2R2H×2W×C

2.2 混合编码

混合编码使用全局注意力机制捕捉全局上下文信息。本文使用Flash Attention V2以提高效率。 F 0 F_0 F0首先通过下采样,然后拉平为序列以进行注意力:
S 1 = D W C o n v ( F 0 ) Q = K = V = F l a t t e n ( S 1 ) Q = A t t n ( Q , K , V ) F 3 = R e s h a p e ( F F N ( Q ) ) S_1=DWConv(F_0)\\ Q=K=V=Flatten(S_1)\\ Q=Attn(Q,K,V)\\ F_3=Reshape(FFN(Q)) S1=DWConv(F0)Q=K=V=Flatten(S1)Q=Attn(Q,K,V)F3=Reshape(FFN(Q))

其中 D W C o n v ( ⋅ ) DWConv(\cdot) DWConv()为下采样, S 1 ∈ R H 2 × W 2 × C S_1\in\mathbb R^{\frac H2\times\frac W2\times C} S1R2H×2W×C F 3 F_3 F3的形状与 F 2 F_2 F2一致。

2.3 小波解码

小波解码模块进行后处理,作为前馈网络恢复BEV分辨率:
S 2 = F W ( C o n c a t ( F 2 , F 3 ) ) F 4 = D e p t h ( F p + S 2 ) F 5 = D e c o d e ( C o n c a t ( F 4 , F 0 ) ) S_2=FW(Concat(F_2,F_3))\\ F_4=Depth(F_p+S_2)\\ F_5=Decode(Concat(F_4,F_0)) S2=FW(Concat(F2,F3))F4=Depth(Fp+S2)F5=Decode(Concat(F4,F0))

其中 F W ( ⋅ ) FW(\cdot) FW()为用于上采样的前馈小波网络, S 2 ∈ R H × W × C S_2\in\mathbb R^{H\times W\times C} S2RH×W×C D e p t h ( ⋅ ) Depth(\cdot) Depth()为扩展网络深度的中间网络。 D e c o d e ( ⋅ ) Decode(\cdot) Decode()则减少通道数,压缩数据进行后续处理。

2.4 LGE的设计选择

在这里插入图片描述
本文基于基准方案(a),设计了LGE不同的变体结构,如图所示。本文选择(e)作为LGE的结构。

实验表明,与(a)相比,(b)(d)会带来性能下降,©会导致训练发散,而(e)则能够提高性能。

实施细节:先训练激光雷达(带CBGS)/图像(不带CBGS)主干,然后冻结主干训练融合部分与检测头(除训练末期外,带GT增广)。

本文LGE之后的部分实际上类似FocalFormer3D,只是把原本级联的形式变为并行(实际上并非完全并行)。


http://www.ppmy.cn/ops/107771.html

相关文章

经验笔记:SQL调优

SQL调优经验笔记 引言 SQL调优是确保数据库系统高效运行的重要环节。通过对查询语句、数据库配置、硬件资源等方面进行优化,可以显著提升数据库性能,进而增强应用程序的整体表现。以下是基于常见调优手段和实践经验整理的一份经验笔记。 1. 查询语句优…

优化边缘设备上的大型语言模型(LLM)--tinychat

文章目录 一、项目启动1.背景:针对不同操作系统架构的4bit权重重排2.初始环境配置下载LLaMA2-7B-chat模型 3.项目启动项目结构说明评估不同优化技术可能遇到的bug以及措施1.macOS上部署 二、各种优化技术实现1.前置条件2.优化----循环展开3.优化----多线程4.优化---…

Python世界:文件自动化备份实践

Python世界:文件自动化备份实践 背景任务实现思路坑点小结 背景任务 问题来自《简明Python教程》中的解决问题一章,提出实现:对指定目录做定期自动化备份。 最重要的改进方向是不使用 os.system 方法来创建归档文件, 而是使用 zip…

如何在 Ubuntu 24.04 上安装 MariaDB ?

MariaDB 是一个流行的开源关系数据库管理系统,它是 MySQL 的一个分支,它被广泛用于存储和管理数据。本指南将引导您完成在 Ubuntu 24.04 上安装 MariaDB 的步骤。 Step 1: Update Your System 首先更新系统,确保所有的软件都是最新的。 su…

单片机毕业设计-基于单片机的运动手环

文章目录 前言资料获取设计介绍功能介绍程序代码部分参考 设计清单具体实现截图参考文献设计获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师,一名热衷于单片机技术探索与分享的博主、专注于 精通51/STM32/MSP…

调研-libevent

基础概念 官网: libevent API提供一种机制,可以在以下情况下执行回调 fd上出现具体事件、超时时间到达后、支持信号、定期超时产生的回调。libevent 旨在取代 事件驱动的网络服务器中的事件循环,程序只需要调用event_dispatch,然后动态添加或删除事件,无需更改事件循环。 …

探索全光网技术 | 全光网产品解决方案整理-(宇洪科技)

探索全光网技术 |全光网产品解决方案整理-宇洪科技 目录 一、数据中心场景1、方案概述2、方案需求3、相关产品4、产品推荐5、方案价值 二、教育场景1、方案概述2、方案需求3、相关产品4、方案价值 三、医疗场景1、方案概述2、方案需求3、相关产品4、方案价值 注:本文…

每日一练:合并区间

一、题目要求 以数组 intervals 表示若干个区间的集合,其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间 。 示例 1: 输入:in…