MapTR 论文研读

news/2025/2/21 20:12:02/

MapTR 论文研读

MapTR论文 :https://arxiv.org/pdf/2208.14437.pdf

代码:https://github.com/hustvl/MapTR

MapTR(来自地平线)

1.摘要

作者们提出了一种有效构建高清地图的方法(MapTR),该地图为自动驾驶系统的规划提供丰富且精确的环境信息。这是一种结构化端到端变换器,用于高效在线矢量化地图构建。作者提出了一种统一的等价排列建模方法,即将地图元素建模为一个具有一组等价排列的点集,这准确地描述了地图元素的形状并稳定了学习过程。他们设计了一种分层查询嵌入方案,以灵活地编码结构化地图信息,并对地图元素学习进行分层二分匹配。在nuScenes数据集上,与现有的基于相机输入的矢量化地图构建方法相比,MapTR实现了最佳性能和效率。特别是,MapTR-nano在RTX 3090上以实时推理速度运行(25.1 FPS),比现有的最先进的基于相机的方法(VectorMapNet C)快8倍,同时实现了5.0的mAP提高。与现有的最先进多模态方法相比,MapTR-nano(VectorMapNet C&L)实现了0.7的mAP的提高,而MapTR-tiny实现了13.5的mAP的提高和3倍的推理速度。丰富的定性结果显示,MapTR在复杂和各种驾驶场景中保持了稳定且鲁棒的地图构建质量。MapTR在自动驾驶领域具有重要的应用价值。

2. 论文贡献

本文的贡献可以总结如下:

• 提出了一种统一的等价排列建模方法,用于地图元素,即将地图元素建模为一个具有一组等价排列的点集,这准确地描述了地图元素的形状并稳定了学习过程。

• 基于这种新颖的建模方法,设计了MapTR,一种用于高效在线矢量化高清地图构建的结构化端到端框架。作者设计了一种分层查询嵌入方案,以灵活地编码实例级和点级信息,执行地图元素学习的分层二分匹配,并利用提出的点对点损失和边缘方向损失对点和边缘级别的几何形状进行监督。

• MapTR是首个实时且最先进的矢量化高清地图构建方法,在复杂和各种驾驶场景中都具有稳定而强大的性能。

image

image

早期的研究(Chen等,2022a; Liu等,2021a; Can等,2021年)利用线形先验知识,基于前视图像来感知开放形式车道。然而,它们受限于单视角感知,无法处理具有任意形状的其他地图元素。

Li Chen, Chonghao Sima, Yang Li, Zehan Zheng, Jiajie Xu, Xiangwei
Geng, Hongyang Li, Con-

ghui He, Jianping Shi, Yu Qiao, and Junchi Yan. Persformer: 3d lane
detection via perspective

transformer and the openlane benchmark. In ECCV, 2022a.

Ruijin Liu, Zejian Yuan, Tie Liu, and Zhiliang Xiong. End-to-end lane
shape prediction with transformers. In WACV, 2021a.

Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, and Luc Van
Gool. Structured bird’s-eye-view traffic scene understanding from
onboard images. In ICCV, 2021.

随着俯视图BEV的发展,最近的研究(Chen等,2022b; Zhou&Kr¨ahenb¨uhl,2022年; Hu等,2021年; Li等,2022c年)通过进行BEV语义分割来预测光栅化地图。然而,光栅化地图缺乏矢量化的实例级信息,例如车道结构,这对于下游任务(例如运动预测和规划)很重要。

Shaoyu Chen, Tianheng Cheng, Xinggang Wang, Wenming Meng, Qian Zhang,
and Wenyu Liu. Efficient and robust 2d-to-bev representation learning
via geometry-guided kernel transformer. arXiv preprint
arXiv:2206.04584, 2022b.

Brady Zhou and Philipp Krähenbühl. Cross-view transformers for
real-time map-view semantic segmentation. In CVPR, 2022.

Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu,
Yu Qiao, and Jifeng Dai. Bevformer: Learning bird’s-eye-view
representation from multi-camera images via spatio temporal
transformers. In ECCV, 2022c.

为了构建矢量化的HD地图,HDMapNet(Li等,2022a年)将像素级别的分割结果进行分组,这需要复杂而耗时的后处理。

Qi Li, Yue Wang, Yilun Wang, and Hang Zhao. Hdmapnet: An online hd map
construction and evaluation framework. In ICRA, 2022a.

VectorMapNet(Liu等,2022a年)将每个地图元素表示为一个点序列。它采用级联的粗到精的框架,并利用自回归解码器按顺序预测点,从而导致了较长的推理时间。

Yicheng Liu, Yue Wang, Yilun Wang, and Hang Zhao. Vectormapnet:
End-to-end vectorized hd map learning. arXiv preprint
arXiv:2206.08920, 2022a.

不同于目标检测,其中目标可以很容易地几何抽象为边界框,矢量化地图元素具有更动态的形状。为了准确描述地图元素,作者提出了一种新颖的统一建模方法。将每个地图元素建模为一个具有一组等价排列的点集。点集确定了地图元素的位置。排列群包括了点集的所有可能的组织顺序,对应于相同的几何形状,避免了形状的歧义

基于等价排列建模,作者设计了一个结构化框架,以车载摄像头的图像作为输入,并输出矢量化的高清地图。作者将在线矢量化高清地图构建流程简化为一个并行回归问题。作者提出了分层查询嵌入,以灵活地编码实例级和点级信息。都是通过统一的Transformer结构同时预测所有实例和实例中的所有点。训练过程被形式化为一个分层集合预测任务,作者进行分层的二分匹配来依次分配实例和点。作者利用提出的点对点损失边缘方向损失点和边缘级别的几何形状进行监督。

凭借所有提出的设计,作者呈现了MapTR,一种高效的端到端在线矢量化高清地图构建方法,具有统一的建模和架构。在nuScenes(Caesar等,2020年)数据集上,MapTR在现有的矢量化地图构建方法中实现了最佳性能和效率。特别是,MapTR-nano在RTX 3090上以实时推理速度(25.1 FPS)运行,比现有最先进的基于相机的方法快8倍,同时实现了5.0倍的mAP提高。与现有的最先进多模态方法相比,MapTR-nano实现了0.7倍的mAP提高和8倍的推理速度,而MapTR-tiny实现了13.5倍的mAP提高和3倍的推理速度。正如可视化显示的(图1),MapTR在复杂和各种驾驶场景中保持了稳定而强大的地图构建质量。

3. 其他相关工作

1.HD地图构建

近年来,随着2D到BEV方法的发展(Ma等,2022年),HD地图构建被定义为基于车载摄像头捕获的全景视图图像数据的分割问题。

Yuexin Ma, Tai Wang, Xuyang Bai, Huitong Yang, Yuenan Hou, Yaming
Wang, Y. Qiao, Ruigang Yang, Dinesh Manocha, and Xinge Zhu.
Vision-centric bev per


http://www.ppmy.cn/news/1240680.html

相关文章

Leetcode200. 岛屿数量

Every day a Leetcode 题目来源:200. 岛屿数量 解法1:深度优先搜索 设目前指针指向一个岛屿中的某一点 (i, j),寻找包括此点的岛屿边界。 从 (i, j) 向此点的上下左右 (i1,j),(i-1,j),(i,j1),(i,j-1) …

108. 将有序数组转换为二叉搜索树 --力扣 --JAVA

题目 给你一个整数数组 nums ,其中元素已经按 升序 排列,请你将其转换为一棵 高度平衡 二叉搜索树。 高度平衡 二叉树是一棵满足「每个节点的左右两个子树的高度差的绝对值不超过 1 」的二叉树。 解题思路 可以采用二分法,每次选数组中间值为…

5.3每日一题(不确定正负号的级数敛散性:和一个正项级数比较判定)

比较判别法和比较判别法的极限形式是对正项级数而言的&#xff0c;若一个级数和p级数比较&#xff0c;结果>0&#xff0c;则同敛散&#xff1b;若结果<0&#xff0c;则结果乘以-1 结果又同敛散了&#xff1b;所以只要比值不等于0&#xff0c;则同敛散&#xff1b; 所以当…

SQL 中的运算符与别名:使用示例和语法详解

SQL中的IN运算符 IN运算符允许您在WHERE子句中指定多个值&#xff0c;它是多个OR条件的简写。 示例&#xff1a;获取您自己的SQL Server 返回所有来自’Germany’、France’或’UK’的客户&#xff1a; SELECT * FROM Customers WHERE Country IN (Germany, France, UK);语…

Linux内核中的overlay文件系统

一、简介 Docker 内核实现容器的功能用了linux 内核中的三个特性 Namespace、Cgroup、UnionFs&#xff0c;今天我们来说一下UnionFs。 linux UnionFs 实现的是overlay 文件系统 OverlayFs 文件系统分为三层&#xff0c; lower 是只读层 Upper 是可读写 Merged 是 lower 和U…

电机应用-直流有刷电机多环控制实现

目录 直流有刷电机多环控制实现 硬件设计 直流电机三环&#xff08;速度环、电流环、位置环&#xff09;串级PID控制-位置式PID 编程要点 配置ADC可读取电流值 配置基本定时器6产生定时中断读取当前电路中驱动电机的电流值并执行PID运算 配置定时器1输出PWM控制电机 配…

python生成邀请码,手机验证码

python生成邀请码,手机验证码 使用python生成邀请码,手机验证码,大小写字母,数字等,示例代码如下。 1、获取随机码 import randomdef get_random_code(is_digit=False, num=6):获取随机码:param is_digit: 是否为全数字:param num: 长度:return:if is_digit:sequence =…

【Unity】IBeginDragHandler、IDragHandler 和 IEndDragHandler 介绍

IBeginDragHandler、IDragHandler 和 IEndDragHandler 介绍 IBeginDragHandler、IDragHandler 和 IEndDragHandler 是 Unity 引擎中的三个接口&#xff0c;用于处理 UI 元素的拖放事件。这些接口通常结合使用&#xff0c;构成了 Unity 引擎的拖放事件系统。 IBeginDragHandler…