基于深度学习的3D目标检测与跟踪

目标检测和跟踪对于自动驾驶来说是至关重要和基础的任务，旨在从场景中识别和定位出那些预定义类别的对象。在所有形式的自动驾驶数据中，3D点云学习引起了越来越多的关注。目前，有许多用于3D目标检测的深度学习方法。然而，鉴于点云数据的独特特性，点云的目标检测和跟踪任务仍需要深入研究。

为了帮助对当前的研究者有一个良好的掌握，本文展示了近年来用于3D目标检测和跟踪的深度学习方法的最新进展。

综述 | 基于深度学习的3D目标检测与跟踪https://mp.weixin.qq.com/s/u89SrRjGFK3ybL7TCWeI1g

01 介绍

目标检测一直在计算机视觉领域中占据重要地位。作为图像理解的基石，目标检测广泛应用于诸多领域，例如自动驾驶和机器人视觉。目标检测使得自动驾驶系统能够清晰地看到驾驶环境，并像人类驾驶员一样理解环境中的物体。

随着深度学习的快速发展，深度学习模型可以更轻松地学习复杂、细微和抽象的特征，而无需像传统方法那样进行手动特征提取。鉴于深度学习处理数据的出色能力，目标检测的研究取得了重大进展。

针对2D目标检测的研究已经取得了很大的发展。解决2D目标检测问题的算法的准确性和效率已经达到了很高的水平，并且这些方法在工程实践中起着重要作用。在深度学习技术结合之前，基于滑动窗口的传统检测策略在相当长的时间内一直是主流。在尚未应用深度学习于检测的阶段，上述提到的目标检测方法的流程通常可以分为三个部分：i）候选区域生成；ii）特征向量提取；iii）区域分类。候选区域生成的主要任务是搜索整个图像，找到可能包含目标物体的位置。这些位置被称为感兴趣区域（ROI）。滑动窗口技术是一种直观的思想，用于扫描输入图像并找出ROI。在第二阶段，算法将从图像的每个目标位置提取一个固定长度的特征向量。直方图梯度（HOG）是由Navneet Dalal和Bill Triggs提出的最流行的特征提取方法之一。通常情况下，线性支持向量机与HOG一起使用，实现区域分类。

通过这些传统的检测器，目标检测虽然取得了很大的成功，但仍存在一些局限性。基于滑动窗口的方法的巨大搜索空间和昂贵的计算促使我们寻求更好的解决方案。此外，一个不容忽视的缺点是，设计和优化检测器的过程是分离的。这可能导致系统的局部最优解。

自从深度学习技术在这个领域出现以来，目标检测方面变得更加强大。这些使用深度学习技术的目标检测系统相较过去能够更加方便快捷地处理问题。我们可以观察到从2012年开始，随着Krizhevsky等人对于图像分类中的深度卷积神经网络（DCNN）的研究，基于深度学习的方法不断涌现出来。

目前，目标检测算法的主流可以分为两种类型：

1）两段式方法，例如基于区域的卷积神经网络（R-CNN）及其变种；

2）单阶段方法，例如You Only Look Once（YOLO）及其变种。

两段式方法是一种基于区域候选的方法，首先提出一些可能包含目标的区域，然后分别从这些区域中提取特征向量。而单阶段方法则直接在特征图的位置上预测目标的类别，省略了区域分类的步骤。

不同类型的方法具有各自的优点。Fast-RCNN减少了以前网络的处理时间，然而，计算成本相当大成为一个困扰。直到Faster-RCNN的出现，这个问题才得到解决。在本文中，2D目标检测不是重点，但为了对3D目标检测方法进行全面的回顾和介绍，我们也提到了这些方法。在图1中，我们展示了2D目标检测技术的主要进展和里程碑。

图1 目标检测技术的主要发展和里程碑。在2012年出现了一个转折点，标志着传统的和基于深度学习的目标检测方法之间的界限。

然而，随着新的应用场景（如机器人视觉和自动驾驶）的提出，2D目标检测的实现远远不够。相机捕捉的图像是将3D空间投影到2D视图中，这导致了3D空间信息的丢失，无法满足人们的需求。我们需要考虑更多的3D空间信息。随着许多3D技术的快速发展，越来越多的3D传感器，如LiDARs，3D扫描仪和RGB-D相机变得越来越可用和实惠。

在本综述中，我们主要分析使用LiDAR获取的点云。作为一种常见的格式，每个点为我们提供了有用的几何位置信息，其中一些可能包含RGB信息。在自动驾驶方面，对于3D目标检测和跟踪有着急切的需求。在自动驾驶的研究中，准确的环境感知和精确的定位是自动驾驶系统在复杂和动态环境中实现可靠导航、信息决策和安全驾驶的关键。与受到照明影响的图像数据质量不同，点云对于不同的光照条件具有鲁棒性。因此，点云数据被广泛应用于这个领域。

在2D目标检测的基础上，目标检测的问题和要求发生了变化。对于点云的稀疏性和不规则性，不可能将2D目标检测方法应用于3D点云。因此，需要改变2D目标检测方法，以确保这些方法可以扩展到3D情况。与应用于图像中的目标检测方法类似，这些3D目标检测方法仍然可以分为两种类型：两段式方法和单阶段方法。图2根据深度学习技术对最近主流的3D目标检测方法进行了简单分类。本文的后续第3节将详细介绍这些3D检测方法的更多细节。

在本文中，我们主要关注基于点云的3D目标检测的最新方法。本综述的其余部分如下所述。相关背景，包括问题识别、问题描述、主要挑战以及本综述的动机，将在第2部分中说明。在本文的第3部分，我们将详细介绍当前用于3D目标检测的方法，包括它们的优缺点。第4部分总结了点云深度学习方法的最新发展。此外，我们指出了一些仍未解决的困难问题，并提供了一些可能有意义的研究方向。

02 相关背景

为了帮助理解现代深度学习技术如何应用于解决3D目标检测问题，本节将介绍研究对象和数据的一些简单概念。

2.1 问题

3D目标检测问题与2D检测类似，可以如下定义：给定一些点云数据，3D检测器需要确定是否存在预定义类别的实例，如果存在，则需要确定它们的位置。首先需要考虑的是这些预定义的类别，这取决于具体的问题。以自动驾驶为例，研究者门更关注交通参与者（如自行车、汽车和行人）。一般来说，像天空和云这样的非结构化场景通常不是我们的研究对象。

一般情况下，使用3D边界框来表示3D物体的位置。它是一个放置在3D空间中的矩形立方体，通常有三种表示方法，如轴对齐的3D中心偏移法（3D centre offset method）[17]、8个角点法（8-corners method）[18]和4个角点2个高度法（4-corner-2-height method）[19]。一般来说，3D目标检测的最终结果是使用3D边界框来标记3D物体，如图3所示。

2.2 主要挑战

通用目标检测方法旨在识别和定位感兴趣的物体类别。在大多数计算机视觉问题中，人们主要关注准确性和效率。目标检测也不例外。

从LiDAR、深度相机和双目相机获取的点云数据可以用于三维目标检测。然而，随着物体和摄像机之间距离的增加，点云密度会突然下降，发生巨大变化。此外，由于遮挡的存在，一些物体的部分可能会变得不可见，这导致相同物体的点云分布存在较大滞后。总之，点云的表示方式非常不同，对于目标检测器来说很难进行准确检测。

另一个需要注意的问题是点云的稀疏性和不规则性。同一个物体的点的顺序受不同采集设备和不同坐标系的影响。这些不规则的点云使得端到端模型很难处理。此外，与大规模场景相比，LiDAR采样点的覆盖范围非常稀疏。众所周知，随着人工智能的快速发展，深度神经网络在自动驾驶的大多数任务中被广泛使用，因为它们具有高准确性和强鲁棒性。在二维目标检测领域中使用的深度神经网络[20, 21]的性能要比其他类型的算法好得多。然而，正如我们刚刚提到的点云的特性，导致这些深度学习方法失去了效果。这就是为什么基于深度学习的三维目标检测研究进展缓慢的原因。因此，在数据预处理阶段，如何更好地表示稀疏点云数据值得深入研究。

尽管点云具有深度和空间信息等有用信息，但有时候同时利用图像数据会表现得更好。因此，许多将LiDAR点云和图像结合的方法得到了很好的发展。在这篇论文中，我们主要讨论点云的深度学习方法。为了使论文更完整，还将包括一些同时使用2D图像的融合方法。

2.3 本文动机

这篇论文根据算法的执行过程，将相关方法进行了组织。换句话说，我们主要关注的是一个检测器是否首先生成提议。本文旨在调查关于点云三维目标检测的最新研究，并对这些方法进行分类，提供了基于深度学习技术在点云领域的最新进展的全面总结。它还涵盖了不同方法的比较优势和劣势，并观察到一些尚未解决的问题，以激发更多未来可能的研究方向。

03 方法

3.1 两段式方法

两段式检测器首先检测出一些可能包含物体的区域，也称为提议（Proposals），然后对提取的特征进行预测。根据文献[22]的介绍，我们进一步将这些两段式方法分为三种：i)基于多视图的方法；ii)基于分割的方法；iii)基于截锥体的方法。

多视图方法。需要意识到，对于类别判别来说，纹理信息是很重要的，但在点云中并不包含这些信息。相反，单目图像不能为我们提供准确的三维定位和尺寸估计的深度信息。因此，多视图方法尝试使用不同的模态来提高性能。深度融合结合了来自多视图（例如鸟瞰图（BEV）、激光雷达正视图（FV）和图像）的区域特征，并得到定向的三维包围盒，如图4a所示。

Chen等人[18]的一个显著贡献是他们的多视图三维目标检测网络（MV3D）。针对现有基于激光雷达的三维方法的计算代价较高、当前基于图像的方法的缺点以及现有多模态融合方法的局限性，该研究试图提出一种方法来克服这些缺点，促进三维目标检测的发展。MV3D由两个子网络组成：一个是3D提议网络用于生成三维提议，另一个是深度融合网络，其主要功能是尝试融合多视图的特征提议。他们使用3D提议并将其投影到三个视图上。从理论上讲，将3D提议投影到3D空间中的任何视图都是非常有用的。在他们的实验证明中，基于激光雷达的方法在KITTI验证集上的IOU（Intersection-over-Union）为0.5时，平均精度达到了87.65％，比VeloFCN[23]高30％。此外，作者阐述了BEV的构建过程并说明了BEV的三个优点，为他们寻找鸟瞰图提供了启示，并对未来的研究具有一定的参考价值。然而，这个模型并不完美，因为检测的整个过程太慢，无法应用于实际场景。此外，这个区域提议网络（RPN）不适用于BEV中的小物体实例。小物体在特征图中只占据了一小部分像素，导致提取特征的数据不足。因此，已经做出了许多努力来改进MV3D模型。

有关信息融合效率的几种尝试是通过应用不同的模态来实现的。Ku等人[19]提出了一种综合视图目标检测网络（AVOD），该网络同时使用了激光雷达点云和RGB图像。与MV3D不同的是，它将ROI特征融合扩展到了提议生成阶段。他们的RPN具有一种新颖的架构，能够在高分辨率特征图上完成多模态特征融合，从而方便为场景中的小物体生成准确的区域提议。此外，他们在KITTI目标检测基准[24]上测试了AVOD的性能，结果显示AVOD能够实时运行且内存消耗低。然而，ROI特征融合局限于高级特征图。此外，只有从选定的目标区域提取的特征才会被融合。ContFuse[25]是为了克服这些缺点而开发的。他们通过连续卷积来融合不同分辨率的特征图。通过将激光雷达点云图像投影和BEV空间相对应，也就是说，BEV空间中每个点都可以提取相应的图像特征，并且将图像特征投影到BEV平面可以获得密集的BEV特征图。然而，极其稀疏的点云限制了这种融合的效果。Liang等人[26]提出了一种多任务目标检测网络（例如3D目标检测、地面估计和深度补全）的多传感器方法。这篇论文利用了点对点和ROI特征融合的优点。具体而言，多任务的实现有助于整个网络学习更好的表示。因此，使用了KITTI和TOR4D数据集对该方法进行了验证，证明在检测问题上取得了显著的改进，并且在之前的最新方法中表现优异。

另一个改进方向是探索如何提取鲁棒的输入表示。提出了一种新颖的空间通道注意力网络（SCANet）[27]，旨在实现高精度的三维目标检测。在这篇论文中，他们提出了一个全新的空间通道注意力（SCA）模块和一个扩展空间上采样（ESU）模块，用于3D区域提议。前者可以聚焦于场景中的全局和多尺度上下文，并捕捉那些有区别性的特征。后者结合了不同尺度的低层次特征，并产生可靠的3D区域提议。此外，一种更好地融合这些特征的方法是应用一种新的多级融合方案，允许它们之间进行更多的交互。最后，实验结果表明，他们的方法在11.1 FPS的速度下比MV3D快5倍。

基于分割的方法。这种方法通常对语义分割进行初步处理[28]，也就是说利用语义分割技术将背景点剔除，可以帮助从前景点生成高质量的提议。图4b展示了一个典型的基于分割的网络。此外，与上述多视角方法相比，基于分割的方法在召回率方面得分更高，并且适用于具有大量遮挡和拥挤对象的复杂场景。

首先介绍的方法是在文献[29]中提出的。这种名为IPOD的方法首先对图像进行语义分割，然后生成基于点的提议。在这些正样本点上生成的提议仍然具有高保真度。此外，该论文还考虑了一些可能的问题，如提议的冗余性和歧义性。为了解决这些问题，该论文提出了一种名为PointsIoU的新标准。实验结果明确表明，该模型比许多三维检测方法更好，特别是对于那些具有高度遮挡的场景。

我们回顾的另一种经典的基于分割的网络是由Shi等人在文献[30]中提出的PointRCNN。该网络通过分割技术在第一阶段生成3D提议，并在第二阶段对这些提议进行细化以获得最终的检测结果。与IPOD不同，PointRCNN直接对点云进行分割以生成高质量的提议，而不是应用2D目标分割。该网络的一个重要模块是基于bin的3D边界框生成，这些边界框是从前景点进行回归得到的。该模块不使用L1或L2损失进行回归，而是采用基于bin的方法。也就是说，他们首先将每个前景点分割成不同的bins，然后在每个bin中进行边界框回归。这项工作在3D空间中实现了一个RPN。根据PointRCNN的RPN阶段的经验，Jesus等人提出了一种基于图的3D检测Pipeline，名为PointRGCN [31]，它利用了GCN的进展，包括两个子网络R-GCN和C-GCN。R-GCN是一个残差GCN，通过使用提议中的所有点实现了预提议特征聚合。C-GCN是一个上下文GCN，其主要功能是通过不同提议之间的共享上下文信息来细化提议。Sourabh等人提出了PointPainting [32]，其通过将激光雷达点投影到基于图像的语义分割网络的输出上，并将类别分数附加到每个点上来工作。这些附加点可以输入到任何现有的仅使用激光雷达的检测器，例如前面提到的PointRCNN。他们的工作可以填补综合信息对于基于融合的方法是有利的这一空白，但是主要基准数据集上的实验结果表明，在大多数情况下，仅使用激光雷达的方法优于基于融合的方法。

基于视锥体（Frustum）的方法。这些方法利用成熟的2D目标检测器和先进的3D深度学习技术进行物体定位。它们首先生成2D物体区域提议，然后通过将2D边界框提升到一个视锥体来生成3D视锥体提议，该视锥体包含了物体的3D搜索空间。视锥体方法的一个具体流程可以在图4c中看到。当然，值得注意的是，虽然这些方法在提出可能的3D物体区域方面效率很高，但是这种逐步的Pipeline过程极大地依赖于2D图像检测器。

Qi等人在这个方向上做出了开创性的工作。他们提出了一种基于RGB-D数据的新颖框架，称为Frustum PointNets [33]，用于3D目标检测。在他们的工作中，模型首先将RGB图像输入到卷积神经网络中以获得2D提议，然后结合深度信息将区域投影到视锥体中。这是获取视锥体提议的过程。对于视锥体中包含的点，将执行3D实例分割。基于分割的结果，一个轻量级的回归PointNet尝试通过平移调整这些点，使其质心接近非模态框的中心。最后，一个3D框估计网络估计那些3D非模态边界框。令人惊讶的是，F-PointNets能够只使用少量点预测出正确的非模态3D框。然而，它仍然存在一些问题，比如在同一类别的多个实例情况下无法正确工作。在F-PointNets的工作之后，Zhao等人提出了一种名为SIFRNet [34]的新网络架构，该架构依赖于前视图图像和视锥体点云来预测3D检测结果。整个网络主要由三个部分组成：i) 3D实例分割网络（Point-UNet）；ii) T-Net；iii) 3D框估计网络（Point-SENet）。它们有助于改善3D分割的性能和3D边界框预测的效率。PointSIFT [35]模块被集成到他们的网络中，捕捉点云的方向信息，并对形状缩放具有很强的鲁棒性。一系列实验证明，与F-PointNets相比，这种方法在KITTI数据集和SUN-RGBD数据集 [36]上取得了更好的性能。

Xu等人提出了一种名为PointFusion [37]的通用3D目标检测方法。为了处理各种RGB图像和点云数据的组合挑战，先前的方法通常将点云数据的形式进行转换，例如通过2D图像或体素来表示点云数据。这种方法很方便，但会导致丢失点云中包含的一些信息。相反，这种方法直接利用ResNet [38]和PointNet [39]处理图像和3D点云。所获得的2D图像区域及其相关的视锥点被用于精确回归3D框。他们提出了一个全局融合网络，直接获得3D框的角点位置。同时，还提出了一种新的密集融合网络，用于预测空间偏移并选择具有最高分数的最终预测结果。

值得注意的是，Wang等人提出了一种新颖的方法，名为Frustum ConvNet [40]，它首先为每个提议生成一系列的视锥，并利用所获得的视锥来对这些点进行分组。我们上面提到的F-PointNet也直接在原始点云上进行操作，但由于其T-Net对齐的限制，它并没有被设计成一个端到端的Pipeline。这个方法考虑了这一因素，并设计了将前述方法的一些优点结合起来的方式。已经证明，这种全新的端到端式的F-ConvNet方法在KITTI数据集上实现了2D检测器中最先进的性能，并且对于自动驾驶等大量应用具有帮助。

两段式方法在目标检测方面具有高精度等优势。然而，由于包含预定义目标的区域生成的过程，这种目标检测过程的速度会降低。

3.2 单阶段方法

在我们的讨论中，单阶段等同于直接预测类别概率和回归边界框的意思。这些方法不需要区域建议网络（RPN）和后处理。因此，它们的速度比两段式方法更快，主要应用于实时系统。我们将单阶段方法按照输入数据的形式进行分类，包括基于BEV的方法、基于离散化的方法和基于点云的方法。

基于BEV的方法。从这种方法的名称中可以明显看出，基于BEV的方法使用BEV表示作为输入。如文献[18]中所提到的，与前视或图像平面相比，在3D目标检测中，BEV地图具有几个显著优点。首先，在BEV地图中，物体的物理尺寸与原始尺寸相同，从而减小了前视/图像平面的尺寸误差。其次，由于BEV中的物体位于不同的位置，几乎不可能遇到遮挡问题。最后，对于自动驾驶应用来说，这些交通参与者通常位于地面平面上，并且在垂直方向上存在小的方差。因此，当获取3D边界框时，BEV位置非常重要。

Yang等人提出了一种名为PIXOR [41]的无需候选框的单阶段方法，它使用了Bird's Eye View（BEV）的原始3D数据表示。我们可以从图5中看到PIXOR的网络架构。这里选择BEV表示是因为它的计算效率较高。在细化输入表示的阶段，他们首先对感兴趣场景中的3D点进行分辨，每个单元的分辨率为 $d_L\times d_W \times d_H$ ，然后对每个单元的值进行编码，以得到占用张量。最后，他们将2D反射图像和3D占用张量进行组合。在设计网络架构时，采用了全卷积网络进行稠密的3D目标检测。PIXOR由骨干网络和头网络组成。前者提取输入的普通表示，后者用于进行特定任务的预测。根据实验结果，得出了这样的结论：在以10FPS运行时，PIXOR在平均精度（AP）方面超过了大多数单阶段方法。

随后，Yang等人[42]展示了高清地图（HD）具有强大的先验知识，有助于改善3D目标检测的性能和鲁棒性。为了实现这一目标，他们开发了一种在Bird's Eye View（BEV）中工作并融合LiDAR信息的单阶段检测器。具体而言，他们从高清地图中获取地面点的坐标，然后将BEV表示中的绝对距离替换为相对于地面的距离，以修复平移方差。考虑到高清地图并非随处可得，他们提出了一种实用的解决方案，即利用在线地图预测模块，根据LiDAR点云数据估计地图先验。在他们的实验中，基准是一个没有地图的PIXOR++检测器。结果表明，这个具备HD地图感知的模型在TOR4D和KITTI上明显优于基准模型。然而，仍然存在一个问题，即对具有不同密度的点云数据的泛化性能较差。为了解决这个问题，Beltran等人提出了一种名为BirdNet的新的网络架构[43]。他们为BEV开发了一种新的编码方法，该方法对于距离和LiDAR设备上的差异具有不变性。提出的密度归一化方法使得可以在那些流行的高分辨率激光数据集上训练模型。

基于离散化的方法。通过其名称，很容易理解这种方法。这些方法通常将原始点云数据转换为规则的离散格式（例如，2D地图），然后使用深度神经网络预测物体的类别概率和3D边界框。

第一种使用FCN进行3D目标检测的方法是由Li等人提出的。由于卷积网络技术的快速发展，他们提出了一种将FCN技术移植到3D数据目标检测中的新想法[23]。在这种方法中，点云数据被转换成2D点图，并且使用FCN同时预测这些目标的置信度和边界框。这是首次尝试将FCN技术引入到基于范围扫描数据的目标检测中，生成了一种有序和端到端的框架进行检测。然而，该论文只分析了来自Velogyne 64E的3D范围扫描方法。因此，在他们的后续工作中，他们将点云离散化为一个具有长度、宽度、高度和通道维度的4D张量[44]。在这项工作中，他们还将基于FCN的前者2D检测方法扩展到3D领域的3D目标检测。我们可以在图6中观察到检测结果。根据他们的实验结果，他们与2D检测工作中的FCN进行了比较，发现准确度提高了20%以上。

图6 3D FCN检测过程的直接结果显示。(a) 高目标可信度的边界框聚合，并将其绘制为绿色边界框。将预测的边界框显示为绿色边界框。(b) 将这些边界框与经过聚类的蓝色原始点云进行绘制。(c) 在鸟瞰图中可视化(a)和(b)的检测结果。

尽管基于3D FCN的方法相对于之前的工作取得了一些进展，但仍然存在一些可能的问题。回顾这个过程，很容易发现由于3D卷积和数据的稀疏性，这种方法具有巨大的计算开销。Engelcke等人提出了一个计算效率高的方法，名为Vote3Deep，用于对3D点云进行目标检测[45]。Vote3Deep是一个以特征为中心的投票框架，旨在提高计算效率。一方面，通过利用投票框架来构建一个高效的卷积层非常有用。另一方面，为了利用整个CNN堆叠的稀疏卷积层，他们利用了修改的线性单元和稀疏惩罚项。Li等人提出了一个从原始数据中学习3D特征的3D骨干网络[46]。该网络旨在解决缺乏强大的3D特征提取方法的问题。因此，这种方法获得了丰富的3D特征，并不会带来巨大的计算负担。

图7 VoxelNet直接在原始点云上进行处理，无需进行特征工程，并使用单个可端到端训练的网络来预测3D检测结果。

Zhou等人提出了一种名为VoxelNet的端到端网络用于3D目标检测[47]。图7展示了VoxelNet的工作原理。他们将点云投影到等距离的体素中，并通过新提出的体素特征编码（VFE）层将每个体素中的一些点转换为集中的特征表示。使用体素来表示点云的方法具有很高的性能。基于体素的方法有时旨在增强在处理点云数据时信息的保留。然而，由于体素的稀疏性和3D卷积计算，模型处理速度仍然非常缓慢。在Zhou的工作之后，Yan等人研究了如何增加训练和预测的速度，并提出了一种改进的稀疏卷积方法[48]。此外，为了解决在0到π之间求解正弦函数时的模糊问题，他们提出了一个正弦误差角度损失。Sindagi等人也尝试对VoxelNet进行了一点改进，即在不同阶段融合图像和点云特征[49]。具体而言，PointFusion和VoxelFusion是[49]中提到的两种独特技术。前者在点云数据可以投影到图像平面的早期阶段起作用。后者用于将这些3D体素投影到图像中。与VoxelNet相比，这个具有新技术的网络具有利用多模态信息的能力，并且可以减少误判和漏检。

考虑到现有的单阶段方法在降采样特征图的过程中不可避免地丢失了一些点云的空间信息，He等人提出了一种SA-SSD网络，利用细粒度的结构信息来提高定位精度[50]。它的特殊之处在于，他们首先将点云数据转换为张量，并将其放入主干模型中提取多个阶段的特征。此外，他们设计了一个具有点级监督的附加网络，可以指导这些特征学习点云的结构。令人惊讶的是，他们的实验结果表明，SA-SSD在KITTI BEV检测基准的Car类别上排名第一。

基于点的方法。这些方法不会转换原始输入的格式，会直接将点云输入到网络中。Yang等人做了一项开创性的工作，提出了一个名为3DSSD的网络[51]。这是第一个轻量级高效的基于点云的3D单阶段目标检测器。在这个新模型中，他们提出了距离最远优先采样（D-FPS）和特征最远优先采样（F-FPS）相结合的采样策略。此外，他们生成了一个详细的边界框预测网络，以最佳方式利用代表点，利用候选生成层（CG），无锚回归头和3D中心分配策略。最后，实验结果表明，3DSSD在25 fps的速度下超过了基于点的方法PointRCNN。

其他方法。还有一些其他的单阶段目标检测方法在本文中没有被归类为任何类型的方法。Meyer等人提出了LaserNet，这是一个高效的概率化3D目标检测模型[52]。值得一提的是，他们使用了一个小而密集的距离视图数据作为输入，而不是鸟瞰图数据。因此，他们的模型更加高效。此外，据我们所知，这是第一种以建模边界框角点分布的方式获得检测不确定性的方法。

与两段式方法相比，单阶段方法可能无法达到如此高的检测精度。但是单阶段方法具有更快速检测目标的能力，适用于实时检测。

04 总结

3D目标检测对于计算机理解场景是一个巨大的助力，是许多实际应用（如自动驾驶）的关键技术。在本综述中，我们列举了一些典型的最新的3D目标检测方法，并将它们分为两段式方法和单阶段方法。

前者首先需要生成一系列的候选框，然后预测或回归提取的特征。单阶段方法跳过了候选框生成的过程，直接预测类别概率和回归边界框。为了直观地理解这两种类型的方法是如何实现目标检测的，图8给出了一个简单的描述。

我们还说明了点云数据在目标检测中的优势，并列举了点云的一些公认的缺点。目前，当前流行的方法尝试引入不同类型的输入数据，如激光雷达点云和相机数据。图像提供了更密集的信息，但会丢失3D空间信息。激光雷达点云由于具有几何位置信息和深度信息，适用于3D目标检测。点云的稀疏性和不规则性促使人们研究以利用图像和激光雷达数据的优势的新方法。

根据对各种现有方法的分析，以下问题需要进一步研究：

· 首先，由于数据的规则表示，那些成熟的2D图像处理网络可以广泛应用于基于投影和离散化的技术。然而，在将3D数据投影到2D格式的过程中，不可避免地会丢失一些有用的信息，这对基于投影的方法来说是一个很大的限制。对于基于离散化的方法，分辨率增加引起的计算量指数级增长和巨大的内存开销仍然是一个主要的瓶颈。鉴于上述问题，基于索引架构构建稀疏卷积层可能是这些问题的可行解决方案，值得进一步研究。

· 目前，基于点云的模型是人们关注最多的流行方法。然而，由于点云的稀疏性和不规则性，点表示通常缺乏明确的邻域信息。许多现有的基于点云的方法使用成本很高的最近邻搜索技术，例如在[53]中使用的KNN。这些方法的效率较低，需要更高效的方法。最近的一种点-体素组合表示方法[54]可能是进一步研究的一个方向。

· 大多数现有的3D点云目标检测方法都适用于小规模的点云数据。然而，由于数据采集过程连续，通过激光雷达获取的点云数据异常庞大和大规模。因此，亟需进一步研究解决处理大规模点云数据的问题。

· 大量的研究人员[55, 56]已经开始从动态点云中学习时空信息。期望这种时空信息能够帮助提高许多后续任务的性能，如3D目标分割、目标识别和补全。