Abstract
这份技术报告介绍了2022年Waymo开放数据集3D语义分割挑战赛的第一名获奖解决方案。我们的网络称为LidarMultiNet,将主要的LiDAR感知任务(例如3D语义分割、目标检测和全景分割)统一在一个框架中。 LidarMultiNet的核心是一个强大的基于3D体素的编码器-解码器网络,它具有一个新颖的全局上下文池 (GCP) 模块,可从LiDAR帧中提取全局上下文特征以补充其局部特征。提出了一个可选的第二阶段来细化第一阶段的分割或生成准确的全景分割结果。我们的解决方案实现了71.13的mIoU,并且在Waymo 3D语义分割测试集的22个类中是最好的,优于官方排行榜上的所有其他3D语义分割方法[7]。我们首次证明主要的 LiDAR感知任务可以统一在一个可以端到端训练的强大网络中。
1. Introduction
LiDAR 3D语义分割是自动驾驶的基本感知任务。随着最近几个带有语义标签的大规模LiDAR点云数据集的发布[1, 3, 25],提出了更多的方法来推进LiDAR语义分割的研究。
与2D图像和3D室内点云分割相比,室外LiDAR点云对分割问题提出了更多挑战。由于LiDAR点云的大规模和稀疏性,经过充分研究的2D和室内3D语义分割方法[19, 20]无法直接适应LiDAR语义分割。随着稀疏卷积[6, 28]的出现,更多的方法开始在3D 体素空间中分割点云。然而,由于稀疏卷积的要求和分割任务对编码器-解码器结构的需求,以前基于体素的LiDAR分割网络[5, 36]难以学习全局上下文信息。另一方面,最近的作品试图融合来自多个视图的特征,这些视图包含体素级和点级信息。这些方法更侧重于利用局部点几何关系来恢复用于分割的细粒度细节。