在线地图构建GenMapping：使用IPM实现三重增强，语义映射mIou提升超17%

Abstract

在线高清（HD）地图已成为自动驾驶的首选方案，凭借其灵活的更新能力和较低的维护成本，逐渐超越了离线高清地图。然而，现有的在线高清地图模型将视觉传感器的参数嵌入训练过程中，导致在应用于不同参数的视觉传感器时泛化性能显著下降。受到逆透视映射（IPM）固有潜力的启发，IPM 可以在训练过程中解耦相机参数，我们设计了一个通用的地图生成框架——GenMapping。该框架基于三重协同架构，包括主分支和两个辅助分支。当通过 IPM 转换的粗糙路面图像伴随局部失真时，主分支在状态空间模型下学习鲁棒的全局特征。两个辅助分支分别为密集透视分支和稀疏先验分支。前者利用静态和移动物体之间的相关信息，后者则引入了 OpenStreetMap（OSM）的先验知识。我们设计了三重增强融合模块，协同整合三个分支中的空间特征。为了进一步提高泛化能力，我们采用了视图交叉地图学习（CVML）方案，实现了在公共空间内的联合学习。此外，还引入了双向数据增强（BiDA)模块，以减少对数据集的依赖性。大量实验结果表明，所提出的模型在语义映射和矢量化映射方面均优于当前最先进的方法，同时保持了快速推理速度。此外，在跨数据集实验中，语义映射的泛化性能提升了17.3%的 mIoU，矢量化映射的泛化性能提升了12.1%的 mAP。

代码地址: https://github.com/lynn-yu/GenMapping。

欢迎加入自动驾驶实战群

Introduction

在线高清（HD）地图模型，得益于灵活的映射和较低的成本，近年来取得了显著突破。目前，高清地图分为两类：语义映射和矢量化映射。语义映射采用网格格式描述道路区域，广泛应用于端到端的自动驾驶模型。矢量化映射则使用点和线表示道路实例，适用于路径规划和预测任务。

高清地图是在鸟瞰图（BEV）中构建的，其坐标系与透视视图垂直。当视觉传感器参数和深度值可用时，将透视特征转换为BEV空间变得相对简单。然而，当缺乏准确的深度值时，这通常很难在实际驾驶场景中测量，因此视图转换方法主要集中于研究视觉高清地图。HDMapNet的视图转换通过多层感知器（MLP）层隐式地学习了内在参数和深度。MapTRv2设计了嵌入数据集参考内外参的深度估计网络。这些方法基于深度值和相机参数将透视特征投影到BEV空间，被称为2D到3D转换。相比之下，StreamMapNet采用了3D到2D的转换方法，利用与视觉特征的投影关系获得的3D点特征被压缩为高度空间中的BEV特征。尽管这些巧妙的设计在单个数据集上表现出色，但由于这些模型在训练过程中引入了视觉传感器参数，在不同传感器配置的环境中，容易出现过拟合问题，无法有效运行。

如图1(a)所示，基于深度方法的跨数据集性能分析表明了严重的性能下降问题。视觉图像的绝对深度估计与相机参数密切相关。当在相机A（例如nuScenes）上训练的地图模型应用于相机B（例如Argoverse）时，网络通常使用相机A的参数来估计深度。即使将相机参数集成到模型训练中，泛化性能仍然不理想，难以学习正确的地图结构，如图1(b)所示。因此，我们提出了一个问题：解耦视觉传感器参数与训练过程，是否能够有助于提升泛化性能？逆透视映射（IPM）技术，凭借其对道路结构的强大先验知识，引起了我们的关注。IPM是一种3D到2D模式的特殊情况，通过将3D点设定在固定高度，获得作为地图模型学习对象的BEV道路图像。自然地，视觉传感器参数从模型学习中解耦，这对于跨数据域的部署具有优势。然而，正如图1©所示，IPM图像存在数据失真，缺乏道路平面上方的重要上下文交互，这对于BEV的理解非常重要。

为了释放IPM强大的泛化能力并解决上述挑战，我们提出了一个通用的在线高清地图构建模型，GenMapping。该框架采用三分支协同架构，包括主分支和两个辅助分支。由于IPM图像中的局部几何失真，主分支引入了基于状态空间模型（SSM）的模块来缓解这些局部失真问题。密集透视辅助分支在透视坐标系中学习动态和静态物体之间的密集关联，而稀疏先验辅助分支则基于OSM描述道路中心线的矢量线隐式编码可驾驶区域。此外，还设计了三重增强融合模块并嵌入主分支，通过逐层融合集成辅助特征。同时，我们还提出了联合学习和数据增强方法，以提高泛化能力。一方面，提出了跨视图地图学习（CVML）模块，在透视图和BEV空间之间建立互约束空间，从而加强模型的鲁棒性。另一方面，面对不同空间中对齐的特征，设计了双向数据增强（BiDA）模块，以减少对训练数据集的依赖。正如图2所验证的那样，GenMapping在公开的nuScenes数据集上取得了出色的表现。此外，面对跨数据集迁移实验（即从nuScenes（N）到Argoverse（A）的转换），实验结果表明，该方法在强大的在线高清地图构建中优于其他最新的技术。

3.Method

A. 问题表述

逆透视映射 (IPM)：BEV 平面被划分为独立的小网格，代表自车坐标系中的 (Xi, Yi)。给定多视角透视图像

（或特征 F，地图 M）以及内参

和外参

，通过假设的高度 h 可以得到 IPM 图像

（或 IPM 特征

，或 IPM 地图

）：

其中，Plane 代表所有网格的集合。

是相机坐标系中的深度值。u 和 v，

和

是像素坐标系中的值。n 是相机的数量。imH 和 imW 是透视坐标系中图像

（特征或地图）的大小。H 和 W 是原始图像的大小。

B. 提出的 GenMapping 流程

如图 3 所示，GenMapping 框架采用三分支协同结构，由一个主分支和两个辅助分支组成。主分支 (Sec. III-B1) 负责学习 IPM 图像中的全局语义特征。同时，密集透视分支 (Sec. III-B2) 关注从透视视图中理解特征的空间关系。稀疏先验分支 (Sec. III-B3) 依赖于来自 OpenStreetMap (OSM) 的潜在可驾驶区域知识。最终，辅助分支在三重增强融合 (Tri-EM) 模块 (Sec. III-B4) 中与主分支进行特征对齐和融合。此外，我们提出了跨视图地图学习 (CVML) (Sec. III-C) 以提高联合学习能力，并引入了双向数据增强 (BiDA)(Sec. III-D) 来缓解训练中的过拟合问题。该框架主要以语义地图为指导，可以灵活地集成到其他模型中，例如矢量化地图模型。在本文中，来自语义头的输入特征被用作简单的 BEV 特征，结合到矢量化地图模型中。

1.主分支：该分支的输入是通过公式 (1) 到公式 (4) 从初始多视角透视图像

转换而来的 IPM 图像

。注意公式 (4) 中的 imH 和 imW 是

的大小。引入现代状态空间模型 (SSM)来缓解局部 IPM 图像学习面临局部几何失真的挑战。我们提出通过 SSM 捕获的远距离依赖来设计该分支。主分支是基于 UNet 架构的编码器-解码器结构，包含多个 Vision Mamba (VM) 块。具体来说，来自编码器

和辅助分支融合的特征被输入解码器以获得解码特征

。最终，通过一个传统层作为输出语义地图 Mbev 的头部。

VM 块由多个带有两个分支的视觉状态空间 (VSS) 子块组成。在一个 VSS 子块中，进入两个分支之前，使用层归一化函数处理输入

。第一分支包含一个线性层 (Linear) 和激活函数 (SiLU )：

在第二分支中，特征依次通过线性层 (Linear)、深度可分离卷积 (DSConv)、激活函数 (SiLU) 和 2D 选择性扫描模块 (SS2D)，如公式 (6) 所示。

此外，SS2D 由三部分组成：扫描扩展操作、S6 块和扫描合并操作，与 VMamba 类似。在层归一化 (LN) 后，F4 通过元素级生产 (EP) 与第一分支进行融合。然后，通过线性层学习的融合特征 Ffuse 与残差连接结合以输出 Fo。

2.密集透视分支：由于IPM图像仅捕获路面特征，导致路面以上的信息丢失。该分支旨在补充从透视图像中获得的不同信息，主要从两个方面考虑。首先，虽然IPM图像和透视图像中的路面视觉描述相似，但由于坐标系不同，相同结构的周围分布在两种图像中表现出差异化的局部特征分布。此外，IPM图像仅保留了透视图像中的路面，缺乏与路面以上其他动态和静态物体的交互，如图3所示。然而，这些交互可以在透视图像中得到全面探索。因此，该分支将多视角透视图像输入到轻量级语义分割网络中，以捕获丰富的路面特征。

本节旨在利用透视图像中道路结构的差异化局部特征。选择了经典的轻量级卷积网络ERFNet ，它通过设计非瓶颈1D模块在准确性和效率之间取得平衡，能够有效捕捉上下文信息。

最终，得到透视图像上的路面图

以及透视深层特征

。

3.稀疏先验分支：在简单环境中，IPM图像可以准确描绘路面。然而，在复杂场景中，IPM图像可能遭受严重的空间畸变问题，阻碍了准确的路面结构定位，如图3所示。因此，本节通过利用来自OpenStreetMap (OSM) 的稀疏先验知识解决这些问题。OSM以矢量形式描述了可驾驶区域的中心线。

通过车辆的GPS坐标，可以从数据库中捕获指定范围内的OSM数据。由于OSM数据是矢量格式，每个本地OSM数据可以栅格化以获得OSM的网格地图表示，

，作为该分支的输入。为了保持主分支的形状，首先使用填充操作Pad：

接着设计了两个由卷积层组成的单元层，以获取可驾驶区域的隐性特征。

其中

和都是基于卷积结构的下采样函数。

表示卷积核为4，步幅为2，填充为1。

的定义类似。RELU是激活函数，BN是批量归一化操作。4.三重增强融合：在与两个辅助分支同步学习之后，可以从密集透视分支中获得透视特征

，而从稀疏先验分支中获得OSM特征。这些辅助特征在主分支的编码器和解码器之间的模块中进行融合，如图4所示。

由于透视特征不在BEV空间中，透视特征通过特征IPM技术获得在BEV坐标系中的

，如公式1至公式4所述。此处被公式中的透视特征

替代，其他参数相应调整。注意，

的分辨率低于其他两个分支，因为在IPM中使用高采样分辨率可能导致信息丢失。然后，BEV空间中的辅助特征

共同执行前向数据增强，这将在Sec. III-D中讨论。

经过相同的数据增强后，多分支特征将逐步融合。首先，给定主分支的深层特征

和先验分支的，我们直接将它们相加。并且使用一个卷积块CB，该块由1D卷积层、激活函数和归一化层组成，以获得浅层融合特征

，如公式（16）：

接下来，将

特征补充到浅层融合特征中。由于

的形状与浅层融合特征

不同，因此我们在

上使用池化和卷积操作，如公式（17）所示。

在与浅层融合特征

连接之前，

再次通过填充Pad进行精细化，以确保形状一致。最后，在连接特征上进一步使用一个卷积块CB。增强特征Fme即可获得：

经过三重增强融合后，

作为主分支解码器模块的输入。

C. 跨视图地图学习

与BEV空间中的地图构建相比，透视视图中的道路映射往往能够生成更为稳健的构建结果。这是因为透视视图直接使用了原始且准确的传感器数据，而BEV由于视图转换不可避免地引入了不确定性。换句话说，透视视图中的稳健语义映射也可以作为联合学习信号，用于约束BEV地图构建，增强模型的泛化能力。因此，本节提出了在透视视图和BEV之间的公共空间中的地图学习模块。

透视分支生成透视空间中的道路地图

，而主分支生成BEV空间中的语义地图

。为了在不同语义的全局道路结构之间建立相互监督，这两个地图在公共空间中都用二值网格表示。由于透视地图本身已经是二值的，我们只需要将

转换为二值地图。

同样，这也遇到了两个道路地图之间坐标系不一致的问题。因此，再次使用基于IPM的方法。通过公式1至公式4，可以从透视图生成转换后的IPM地图

，其中由

更新，

和

为

的大小。在获得相同坐标系下的地图后，设计了一个损失函数来约束联合学习的模型，定义如公式20：

其中L表示L1损失函数。

D. 双向数据增强

数据增强是提高泛化能力的一种有效技术。目前，在BEV地图研究中，数据增强方法通常应用于透视视图，BEV空间中很少有数据增强方法。这些方法如果在数据增强时引入额外的不确定性，则难以从零开始学习准确的BEV特征。相反，在本方法中，BEV特征直接基于IPM道路图像、IPM透视特征和OSM特征，且均不是从零开始学习。因此，与现有数据增强方法不同，本文提出了一种双向数据增强模块，用于BEV空间。

双向数据增强包括主流程中的前向增强和用于扩展映射任务的后向增强。前向数据增强涉及三种数据：IPM道路图像、透视IPM特征和OSM特征。为确保不同种类数据的一致性，选择了几何操作，如旋转和翻转，并同时应用。后向数据增强则应用于其他映射任务，如矢量化映射。由于从主流程中提取的BEV特征，可能出现特征与矢量化映射任务真实标签之间的错位问题。为解决这一问题，采用逆向数据增强方法，对处理后的特征进行二次数据增强，以进一步降低对数据的依赖。值得注意的是，双向数据增强模块也是一个可插拔的数据增强方法，适用于扩展到其他任务。

E. 损失函数

为了监督所提出的模型，整个训练损失由四部分组成：语义映射损失

、透视映射损失

、联合学习损失

以及附加任务损失

：

其中每个任务的权重关系为

。

和

为交叉熵损失函数。本文进一步探讨了矢量化映射任务，其中

遵循参考文献中的设置，并调整了α1、α2和α3等建议的权重。

Experiment

C. 与最新方法的比较

语义高清地图绘制：我们选择了两个具有竞争力的语义地图绘制方法进行比较：HDMapNet 和 P-MapNet 。此外，我们还比较了其他视图转换模块的地图绘制能力，即LSS和 BEVFormer。IPM-a、IPM-b和IPM-c是不同的IPM设计。如表I所示，GenMapping在不同数据集上显著优于现有方法。该方法在nuScenes数据集上实现了40.4%的mIoU，在Argoverse数据集上达到49.1%的mIoU，分别提高了+3.6%和+6.0%。显然，我们的方法在语义地图绘制方面表现出色。图5中的可视化结果进一步证实了我们的方法相比其他方法在地图结构细节上更为精确。

矢量化高清地图绘制：根据当前的矢量化地图研究，矢量化地图大致可以分为非时间融合工作（普通）和时间融合工作（流式）。在非时间工作中，MapTR和MapTRv2是代表性工作。前者采用GKT作为视图转换模块，而后者使用带有深度真值的BEVPool。此外，我们还与其他相关研究进行了比较。流式工作以StreamMapNet为代表，采用流式策略融合时间特征，该方法使用BEVFormer作为视图转换器。因此，我们在两部分中验证了所提出的方法，如表II所示。在两种策略中，GenMapping都用作视图转换器。普通策略采用与MapTRv2相同的解码方法，而流式策略使用StreamMapNet的解码器。结果表明，所提出的方法表现出色，在mAP上分别达到了63.2%和59.4%的高分。此外，这还强调了GenMapping可以无缝集成到矢量化地图任务中，展示其即插即用的能力。图6展示了矢量化地图的可视化结果，其中所提出的方法在实例检测方面更加全面，特别是对于远处的人行横道等细微道路结构。

D. 新划分数据集实验

考虑到nuScenes数据集的原始划分涉及场景重叠，提出了一个新划分的数据集来评估模型的泛化能力。我们在这个新划分的数据集上评估了所有地图绘制方法，所有方法的准确率都有显著下降，这表明泛化研究是非常必要的。如表III所示，在无重叠数据集上实现25%的mIoU，证明了我们方法的泛化能力。此外，矢量化地图的有效性见表IV。如观察所示，我们的方法达到了最高准确率，达到了34.3%的mAP。这表明所提出的方法无缝集成到矢量化地图任务中，并保持了高泛化效率。

E. 跨数据集实验

表V展示了在两个传感器布局不一致的数据集上的语义地图泛化验证实验。实验分别用nuScenes和Argoverse作为训练和验证集替换。LSS将内参参数纳入深度学习，导致跨数据集表现较差。虽然HDMapNet在模型训练中解耦了外参参数，但它仍然依赖于对内参参数的模型学习。相比之下，我们的方法从训练中解耦了内参和外参参数，与前两种方法相比提供了更好的泛化性能。所提出方法的泛化比率分别达到25.1%和21.2%，分别提高了14.9%和17.3%。

对于矢量化地图绘制，表VI显示了跨两个数据集的泛化结果。为确保公平，我们在两种策略下进行了验证。总体而言，带有时间融合的流式策略显示出比普通策略更好的泛化性能，这是因为跨时间序列的一致性进一步有助于约束地图构建。仔细观察发现，所提出的方法在两种策略中都表现出更强的泛化性能，分别实现了12.8%和20.9%的比率。图7提供了矢量化地图的跨数据集可视化结果。如图7(a)所示，在清晰的常规道路环境中，所提出方法生成的地图质量更高。然而，在复杂的道路场景中，例如图7(b)和©所示，其中透视视图通常涉及大量车辆遮挡，泛化性能较差。这仍然是未来研究需要解决的挑战。

F. 跨区域实验

1. 在 nuScenes 数据集中，数据采集发生在两个地点，即波士顿和新加坡。由于两地的道路环境和驾驶法规存在差异，我们通过使用一致的传感器来评估跨区域泛化性能。表 VII 显示了语义地图绘制的跨区域结果。总体而言，尽管使用了相同的传感器分布，跨区域验证结果并不特别理想。这可能是由于训练数据的减少，导致模型的过拟合。然而，我们的方法仍然表现出色，mIoU 提升了 1.7%。

G. 消融实验

在本节中，我们验证了核心模块、损失权重和推理速度的有效性。

核心模块的有效性：为了验证设计中每个模块的正面影响，我们在语义地图绘制的背景下分析了每个模块的有效性。表 VIII 显示了消融结果。基线是主分支。然后，在基线的基础上添加了三元协同框架和三重增强融合模块，mIoU 达到了 38.0%，提升了 +2.1%。接着，前向数据增强的效果得到了验证，mIoU 提升了 +1.1%。最后，CVML 带来的 +1.3% mIoU 提升表明视角视图和 BEV 之间的地图交互是可行的，有助于提高地图绘制的质量。

2.主分支中基本模块的分析：为了进一步分析 Mamba 架构在高清地图绘制中的性能，我们探讨了主分支在不同框架下的语义地图绘制表现，如表 IX 所示。ERFNet 和 UNetFormer均为编码器-解码器架构。前者使用卷积单元作为基本块，而后者使用 Transformer。在跨数据集泛化实验中，UNetFormer 表现出优越的性能。尽管如此，Mamba-UNet 在跨数据实验中的表现与 UNetFormer 相当，并且在单个数据集上的表现更为出色。因此，Mamba-UNet 成为最终选择的框架。

3.OSM 融合分析：由于 GPS 误差导致 OSM 对齐问题，在三重增强融合模块中存在对齐融合问题。本节我们探讨了融合稀疏 OSM 分支的两种方式，如表 X 所示。由于该模块中的高特征分辨率，错位效应逐渐减弱，而直接相加的方法实现了更高的学习效率。

4.矢量化地图任务中的损失权重分析：在本节中，我们评估了所提出的损失与其他矢量化地图任务检测损失之间的权重关系。表 XI 显示了实验结果。请注意，在这些实验中，地图实例检测的损失权重是固定的，并与参考文献一致。可以观察到，当权重为 10、10 和 1 时，在两种策略下都达到了最高精度。

5.效率分析：除了地图质量之外，在线高清地图绘制模型还需要具有快速的推理速度。表 XII 展示了不同模型的推理效率结果。我们的方法不仅实现了更高的精度，还具备了更快的推理速度。这一快速推理速度归因于源数据和模型架构的优势。具体来说，所提出的在线高清地图构建方法能够高效使用低分辨率图像，并结合了更轻量的基于状态空间模型的架构，达到了效率与精度的平衡，非常适合实际应用。

结论

本文的主要贡献总结如下：

1.介绍了一个准确且鲁棒的高清地图模型GenMapping，它是一个以IPM为中心的三分支框架，通过序列学习机制缓解局部失真问题，同时通过三重增强融合解决IPM图像的稀疏性问题。
2.提出了跨视图地图学习（CVML）模块，在透视图和BEV空间之间建立互约束，以增强模型的鲁棒性。
3.设计了双向数据增强（BiDA）组件以提高模型的泛化能力。该组件是一种即插即用的模块，可以无缝集成到其他任务中并持续提升泛化能力。
4.广泛的实验表明该方法的优越性，以及其在不同高清地图构建场景中的强大泛化能力。

文章引用：
GenMapping:
Unleashing the Potential of Inverse Perspective
Mapping for Robust Online HD Map Construction

最后别忘了，帮忙点“在看”。

您的点赞，在看，是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。

扫码加入自动驾驶实战知识星球，即可跟学习自动驾驶感知项目：环境配置，算法原理，算法训练，代码理解等。