MapTR 论文研读

MapTR论文：https://arxiv.org/pdf/2208.14437.pdf

代码：https://github.com/hustvl/MapTR

MapTR（来自地平线）

1.摘要

作者们提出了一种有效构建高清地图的方法（MapTR），该地图为自动驾驶系统的规划提供丰富且精确的环境信息。这是一种结构化端到端变换器，用于高效在线矢量化地图构建。作者提出了一种统一的等价排列建模方法，即将地图元素建模为一个具有一组等价排列的点集，这准确地描述了地图元素的形状并稳定了学习过程。他们设计了一种分层查询嵌入方案，以灵活地编码结构化地图信息，并对地图元素学习进行分层二分匹配。在nuScenes数据集上，与现有的基于相机输入的矢量化地图构建方法相比，MapTR实现了最佳性能和效率。特别是，MapTR-nano在RTX 3090上以实时推理速度运行（25.1 FPS），比现有的最先进的基于相机的方法(VectorMapNet C)快8倍，同时实现了5.0的mAP提高。与现有的最先进多模态方法相比，MapTR-nano(VectorMapNet C&L)实现了0.7的mAP的提高，而MapTR-tiny实现了13.5的mAP的提高和3倍的推理速度。丰富的定性结果显示，MapTR在复杂和各种驾驶场景中保持了稳定且鲁棒的地图构建质量。MapTR在自动驾驶领域具有重要的应用价值。

2. 论文贡献

本文的贡献可以总结如下：

• 提出了一种统一的等价排列建模方法，用于地图元素，即将地图元素建模为一个具有一组等价排列的点集，这准确地描述了地图元素的形状并稳定了学习过程。

• 基于这种新颖的建模方法，设计了MapTR，一种用于高效在线矢量化高清地图构建的结构化端到端框架。作者设计了一种分层查询嵌入方案，以灵活地编码实例级和点级信息，执行地图元素学习的分层二分匹配，并利用提出的点对点损失和边缘方向损失对点和边缘级别的几何形状进行监督。

• MapTR是首个实时且最先进的矢量化高清地图构建方法，在复杂和各种驾驶场景中都具有稳定而强大的性能。

早期的研究（Chen等，2022a; Liu等，2021a; Can等，2021年）利用线形先验知识，基于前视图像来感知开放形式车道。然而，它们受限于单视角感知，无法处理具有任意形状的其他地图元素。

Li Chen, Chonghao Sima, Yang Li, Zehan Zheng, Jiajie Xu, Xiangwei
Geng, Hongyang Li, Con-

ghui He, Jianping Shi, Yu Qiao, and Junchi Yan. Persformer: 3d lane
detection via perspective

transformer and the openlane benchmark. In ECCV, 2022a.

Ruijin Liu, Zejian Yuan, Tie Liu, and Zhiliang Xiong. End-to-end lane
shape prediction with transformers. In WACV, 2021a.

Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, and Luc Van
Gool. Structured bird’s-eye-view traffic scene understanding from
onboard images. In ICCV, 2021.

随着俯视图BEV的发展，最近的研究（Chen等，2022b; Zhou＆Kr¨ahenb¨uhl，2022年; Hu等，2021年; Li等，2022c年）通过进行BEV语义分割来预测光栅化地图。然而，光栅化地图缺乏矢量化的实例级信息，例如车道结构，这对于下游任务（例如运动预测和规划）很重要。

Shaoyu Chen, Tianheng Cheng, Xinggang Wang, Wenming Meng, Qian Zhang,
and Wenyu Liu. Efficient and robust 2d-to-bev representation learning
via geometry-guided kernel transformer. arXiv preprint
arXiv:2206.04584, 2022b.

Brady Zhou and Philipp Krähenbühl. Cross-view transformers for
real-time map-view semantic segmentation. In CVPR, 2022.

Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu,
Yu Qiao, and Jifeng Dai. Bevformer: Learning bird’s-eye-view
representation from multi-camera images via spatio temporal
transformers. In ECCV, 2022c.

为了构建矢量化的HD地图，HDMapNet（Li等，2022a年）将像素级别的分割结果进行分组，这需要复杂而耗时的后处理。

Qi Li, Yue Wang, Yilun Wang, and Hang Zhao. Hdmapnet: An online hd map
construction and evaluation framework. In ICRA, 2022a.

VectorMapNet（Liu等，2022a年）将每个地图元素表示为一个点序列。它采用级联的粗到精的框架，并利用自回归解码器按顺序预测点，从而导致了较长的推理时间。

Yicheng Liu, Yue Wang, Yilun Wang, and Hang Zhao. Vectormapnet:
End-to-end vectorized hd map learning. arXiv preprint
arXiv:2206.08920, 2022a.

不同于目标检测，其中目标可以很容易地几何抽象为边界框，矢量化地图元素具有更动态的形状。为了准确描述地图元素，作者提出了一种新颖的统一建模方法。将每个地图元素建模为一个具有一组等价排列的点集。点集确定了地图元素的位置。排列群包括了点集的所有可能的组织顺序，对应于相同的几何形状，避免了形状的歧义。

基于等价排列建模，作者设计了一个结构化框架，以车载摄像头的图像作为输入，并输出矢量化的高清地图。作者将在线矢量化高清地图构建流程简化为一个并行回归问题。作者提出了分层查询嵌入，以灵活地编码实例级和点级信息。都是通过统一的Transformer结构同时预测所有实例和实例中的所有点。训练过程被形式化为一个分层集合预测任务，作者进行分层的二分匹配来依次分配实例和点。作者利用提出的点对点损失和边缘方向损失对点和边缘级别的几何形状进行监督。

凭借所有提出的设计，作者呈现了MapTR，一种高效的端到端在线矢量化高清地图构建方法，具有统一的建模和架构。在nuScenes（Caesar等，2020年）数据集上，MapTR在现有的矢量化地图构建方法中实现了最佳性能和效率。特别是，MapTR-nano在RTX 3090上以实时推理速度（25.1 FPS）运行，比现有最先进的基于相机的方法快8倍，同时实现了5.0倍的mAP提高。与现有的最先进多模态方法相比，MapTR-nano实现了0.7倍的mAP提高和8倍的推理速度，而MapTR-tiny实现了13.5倍的mAP提高和3倍的推理速度。正如可视化显示的（图1），MapTR在复杂和各种驾驶场景中保持了稳定而强大的地图构建质量。