【论文笔记】Co-Fix3D: Enhancing 3D Object Detection with Collaborative Refinement

原文链接：https://arxiv.org/abs/2408.07999

简介：自动驾驶中准确检测遮挡或远处物体（称为弱正样本）较为困难，这是因为查询初始化时过度依赖置信度热图，导致了高虚警率并掩盖了弱检测。本文提出Co-Fix3D，使用BEV表达的协同混合多阶段并行查询生成机制。模型包含局部-全局特征增强（LGE）模块，以细化BEV特征，从而更有效地突出弱正样本。使用离散小波变换（DWT）进行定位区域的噪声抑制和特征细化，并引入注意力机制以优化全局BEV特征。此外，LGE的多阶段并行也增加了BEV查询，从而增大了选中弱正样本的概率。实验表明，Co-Fix3D在nuScenes数据集上实现了SotA性能。

1. 概述

在这里插入图片描述
Co-Fix3D包含点云模态和多模态版本，对于点云版本，使用3D主干处理并压缩高度得到BEV特征 $F_{LiDAR}\in\mathbb R^{H\times W\times 4C}$ ，将通道维度减少到 $C$ 后，得到初始BEV特征 $F_0$ ；对于多模态版本，使用2D主干和LSS得到图像的BEV特征 $F_{Camera}\in\mathbb R^{H\times W\times C}$ ，随后进行特征融合得到初始BEV特征 $F_0$ 。 $F_0$ 会在LGE模块中被优化，生成BEV热图 $H\in\mathbb R^{H\times W\times c}$ ，其中 $c$ 为类别数。

本文使用多阶段方法生成查询，并使用掩膜机制逐步过滤每个阶段，使得并行的LGE模块受不同的真值监督。掩膜 $M\in\{0,1\}^{H\times W\times 1}$ 被初始化为全1。第 $i$ 阶段中，选择热图的前 $k$ 个值，并将掩膜中相应位置 $(w, h)$ 和类别 $c$ 的值 $M_i(w,h,c)$ 设置为0。这样，一旦某区域被选择，后续阶段不会再探索该区域。随后，使用边界框级别的池化方法处理掩膜中为0的区域，以保证生成的查询尽可能在BEV均匀分布。此后，将掩膜与真实热图相乘，使得不同阶段关注不同的目标。

训练时使用高斯focal损失，保证最后两阶段的GT数量和第一阶段的相匹配。

2. 局部与全局增强模块

在这里插入图片描述
LGE模块用于减小噪声和修正扭曲的BEV特征。其有效整合了局部和全局去噪方法，以增强精度和效率。其包含三部分：用于局部优化的小波编码模块、用于全局优化的混合编码模块，和后处理的小波解码模块。

2.1 小波编码

本文利用DWT进行小波编码，以恢复BEV特征。DWT将BEV分解为4个通道：HH，HL，LH和LL。具体过程如下：
$F_1=Reduce(F_0)\\ F_{LL},F_{LH},F_{HL},F_{HH}=DWT(F_1)\\ F_2=Concat(F_{LL},F_{LH},F_{HL},F_{HH})$

其中 $Reduce(\cdot)$ 为将通道维度压缩到 $\frac C4$ ， $F_1\in\mathbb R^{H\times W\times \frac C4}$ ， $F_{LL},F_{LH},F_{HL},F_{HH}\in\mathbb R^{\frac H2\times\frac W2\times\frac C4}$ ， $F_2\in\mathbb R^{\frac H2\times\frac W2\times C}$ 。

2.2 混合编码

混合编码使用全局注意力机制捕捉全局上下文信息。本文使用Flash Attention V2以提高效率。 $F_0$ 首先通过下采样，然后拉平为序列以进行注意力：
$S_1=DWConv(F_0)\\ Q=K=V=Flatten(S_1)\\ Q=Attn(Q,K,V)\\ F_3=Reshape(FFN(Q))$