论文阅读：BEVBert: Multimodal Map Pre-training for Language-guided Navigation

BEVBert：语言引导导航的多模态地图预训练

摘要

现存的问题：目前大多数现有的预训练方法都采用离散的全景图来学习视觉-文本关联。这要求模型隐式关联全景图中不完整、重复的观察结果，这可能会损害智能体的空间理解。

本文解决方案：提出了一种新的基于地图的具备空间感知能力的预训练范式，可用于 VLN。具体来说，我们构建一个局部度量地图来显式聚合不完整的观察结果并删除重复项，同时在全局拓扑地图中对导航依赖性进行建模。这种混合设计可以平衡 VLN 对短期推理和长期规划的需求。然后，基于混合地图，我们设计了一个预训练框架来学习多模态地图表示，这增强了空间感知的跨模态推理，从而促进了语言引导的导航目标。

大量实验证明了基于地图的 VLN 预训练路线的有效性，并且所提出的方法在四个 VLN 基准上达到了最先进的水平。

介绍

使用自然语言与助理机器人交互是一个长期目标。为了实现这一目标，视觉和语言导航（VLN）被提出并引起了越来越多的研究兴趣[1-3]。给定自然语言指令，VLN 代理需要解释并遵循指令才能到达所需位置。 加强视觉文本关联的学习对于智能体的成功至关重要。受视觉语言预训练巨大成功的启发[4-9]，多种VLN预训练方法被研究并取得了可喜的结果。

然而，大多数现有的 VLN 预训练模型都采用离散全景图（图 1（a））作为视觉输入，这要求模型隐式关联全景图视图中不完整、重复的观察结果。这可能会妨碍智能体的跨膜态空间推理能力。如图1（a）所示，很难推断出“书柜对面的第二间卧室”，因为在不同的视图中存在重复的“卧室”和“书柜”图像，因此很难区分它们是同一对象或多个实例的图像（也就是说很难去判断第1张图和第3张图是不是同一个卧室，或者哪个是书柜对面的卧室）。一个潜在的解决方案是将这些观察结果投影到一个统一的地图中，该地图明确聚合不完整的观察结果并删除重复的结果。 尽管该方案在许多导航场景中取得了成功[15-17]，但其与预训练的结合仍有待研究，本文进行了首次探索。

在具身导航中，地图通常分为度量 [16, 18] 或拓扑 [17, 19]。 度量地图使用密集的网格特征来精确描述环境，但尺度效率低下[20]。因此，使用大地图来捕获长视距导航依赖性可能会导致计算量过高[21]，特别是对于计算密集型预训练而言。然而，这种依赖性对于 VLN 来说至关重要[14,22]。另一方面，拓扑图可以通过以图结构的形式跟踪访问过的位置来有效地捕获依赖性[17]。它还允许代理制定有效的长期目标计划，例如回溯到之前的位置[23,24]。 然而，图中的每个节点通常由压缩的特征向量表示，缺乏用于局部空间推理的细粒度信息。

度量图是一种详细的环境表示方式，它准确记录了环境中各个物体的位置和尺寸，以二维或者三维的形式存在，能够提供关于环境中物理空间的精准度量信息。适用于需要精准控制和详细环境信息的情况。

拓扑图是一种更加抽象的环境表示方式，关注环境中各个位置之间的连接关系而不是具体的物理距离。这种地图通常由节点（代表特定位置或区域，如房间、走廊）和边（代表节点之间的连接，如门口或通道）组成，主要用于简化的路径决策和规划，它可以帮助机器人理解从一个区域到另一个区域的可达性。更适合于当环境比较大或者路径规划需要高效处理时使用。

在本文中，我们没有使用大型全局度量图，而是提出了一种混合方法来平衡上述两个图（如图 1 (b) 所示）。它包含用于短期空间推理的局部度量地图，同时在全局拓扑图上执行总体长期行动计划。该方案与机器人学中的经典拓扑测量 SLAM 具有相似的精神 [20,25]，但其不同之处在于可学习的多模态表示。为了学习这种表示，我们提出了 BEVBert，这是一种新颖的基于地图的预训练范式，可以在鸟瞰图中学习更好的视觉文本关联，以帮助 VLN 智能体进行复杂的空间推理。具体来说：

1、BEVBert 首先基于大规模 VLN 视觉路径构建离线混合地图。

2、我们采用跨模态transformer进行地图-指令交互以获得多模态地图表示。

3、为了学习这种表示，除了语言建模[26]和动作预测[10]之外，我们还设计了一个地图预测代理任务。该任务学习对语言和空间先验进行编码，以预测未观察区域的信息，从而减少决策的不确定性。

4、最后，我们通过顺序动作预测和在线构建的混合地图对模型进行微调。得益于学习到的地图表示，我们的代理学习了更强大的导航策略，并在四个 VLN 基准（R2R、R2R-CE、RxR、REVERIE）上实现了最先进的水平。

SLAM允许机器人在未知环境中同时进行定位和建图。SLAM技术可以分为经典的度量SLAM和拓扑SLAM两种形式，有时还会结合使用，称为拓扑度量SLAM。

度量SLAM的目标是在机器人探索环境的同时创建环境的精确度量地图，如三维地图或栅格地图，并在此过程中确定机器人的精确位置。

拓扑SLAM不那么注重地图的精确度量信息，而是更多地关注地图的结构，即环境中各位置点如何相互连接。它的重点在于建立环境的拓扑结构，这种结构更容易更新和维护，特别是在大型或复杂的环境中。

拓扑度量SLAM结合了上述两种方法的优点，创建了同时具有度量精确性和拓扑简洁性的地图。这种方法可以提供环境的详细度量视图，同时保持地图的拓扑关系，以便于进行路径规划和导航。通过结合这两种地图，可以在需要详细信息时使用度量图，在进行长距离导航或路径规划时利用拓扑图的优势。

本文的贡献如下：

1、首次探索 VLN 中的拓扑-度量图。所提出的混合方法在短期推理和长期规划之间呈现出很好的平衡。

2、提出了一种新颖的基于地图的预训练范式，并凭经验证明学习的地图表示可以增强空间感知的跨模式推理。

3、 BEVBert 在四个 VLN 基准测试中实现了最先进的水平。

方法

本文的方法侧重于基于地图的预训练来提高VLN智能体的规划能力。

问题定义

智能体根据指令 $W$ ，在预定义的图 $G^*$ 上遍历，以达到目标位置。在时间t，智能体的观测为 $O_t=\left \{ V_t,D_t,P_t \right \}$ ，其中 $V_t$ 和 $D_t$ 为RGB图像和深度图构成的离散全景图， $P_t$ 是智能体的位姿信息。智能体的目标是训练一个策略 $\pi (a_i|W,O_t)$ ，预测一个动作 $a_t$ ，其中动作是在候选集里选的（36个方向选其中1个）。VLN 数据集提供带注释的指令路径对来学习策略，即一个指令路径对由指令 $W$ 和路径 $\Gamma =\left \langle O_1,...,O_T \right \rangle$ 。

模型Overview

如图2所示，我们的基于地图的预训练框架由两个模块组成，即拓扑-度量地图和多模态地图学习。地图模块通过采样的专家路径构建离线混合地图（第 3.1 节）。学习模块进行地图-指令交互（第 3.2 节），然后通过三个预训练任务学习多模态地图表示（第 3.3 节）。预训练后，使用在线构建的地图（第 3.4 节）对顺序动作预测任务对同一模型进行微调。

离线构建导航地图是指在机器人执行任务前，预先采集环境数据并在非实时环境中构建地图的过程，通常有几个步骤：数据采集、数据处理、地图优化。离线地图构建适用于环境相对固定不变，且对实时反应要求不高的场景。

在线构建导航地图是指在机器人执行导航任务的同时实时地构建和更新地图。这种方式通常用于环境动态变化大或未知的场景。其特点包括：实时数据采集和处理、根据更新的地图实时调整导航路径等。

拓扑-度量图

为了平衡 VLN 对长期规划和短期推理的需求，我们建议构建一个混合地图。如图2（a）所示，假设智能体当前处于步骤t，行走路径为 $\Gamma ^{'}$ ，我们构建全局拓扑图Gt和局部度量图Mt。接下来我们介绍如何构建这两个地图。

图像处理

对于每个时间步t的全景图 $V_t$ ，使用预训练的Vit抽取特征向量 $V^p_t$ 和缩小的网格特征 $V^g_t$ 。深度图 $D_t$ 缩小到和网格特征同样的比例，作为 $D^{'}_t$ 。

拓扑图

拓扑图 $G_t=\left \{ N_t, E_t \right \}$ 由路径 $\Gamma ^{'}$ 上已观测到的节点组成。给定 $\Gamma ^{'}$ ，我们通过从预定义的图 $G^*$ 导出相应的子图来初始化 $G_t$ 。节点 $N_t$ 被分为已访问节点、当前节点和幽灵节点，其中幽灵节点表示在路径 $\Gamma ^{'}$ 上，但是还未被探索到的可导航节点。边 $E_t$ 记录了所有相邻节点的欧氏距离。我们将特征向量 $V^p_{*}$ 映射到节点上作为他们的视觉表示。例如，在时刻t， $V^p_t$ 首先被pano编码器（一个两层的transformer）编码，以获取上下文视图的embedding $\hat{V} _t^p$ 。由于已访问的节点已经被看到，当前节点也可以从全景图获得，因此将这两类型的节点表示为全景图embedding的平均值，即 $\left ( \hat{V} _t^p \right ) \in \mathbb{R}^D$ ,其中D是embedding的维度。幽灵节点是部分被观测的，因此通过计算嵌入节点可被观测到的部分的视觉embedding作为表征。

此外，我们为 $G_t$ 构建了一个用于长期规划的全局动作空间 $\mathcal{A} ^G$ ，该空间包含所有的被观测到的节点。

度量图

基于网格的度量图 $M_t\in \mathcal{R} ^{U\times V\times D}$ 以当前节点为中心进行局部构建。我们将 $M_t$ 定义为一个以自我为中心的地图，其中每个格子表示一个D大小的潜在特征，代表周围布局的一个小区域。我们将网格的视觉特征 $V^g_{*}$ 映射到网格上来表示地图。由于 $M_t$ 是一种局部表示，可以从当前节点的附近访问过的节点观察到，因此我们集成了周边访问过的节点的网格特征来构建地图。

具体来说，假设当前的节点是 $n_i$ ，我们首先查询拓扑图 $G_t$ ，来获取其附近k阶内访问过的节点： $\mathcal{N}_k=\left \{ n_j|order(n_i,n_j)\le k \right \}$ 。然后，将 $\mathcal{N}_k$ 个节点的网格特征 $V^g_{*}$ 结合起来，并且使用与之对应的 $D^{'}_*$ h和 $P_*$ ，把它们以当前节点为中心，进行投射。最终投影特征被离散化到二维空间网格特征 $M_t$ 中，使用元素平均池化来处理单元格中的特征碰撞。我们为 $M_t$ 配备了用于短期推理的局部动作空间 $\mathcal{A} ^M$ ，该空间由当前节点及其相邻节点组成。我们通过将这些节点的姿态投影到地图上来计算这些节点在 $M_t$ 上的坐标，即“节点→单元”。

特征碰撞，即多个物理特征或观测数据被错误地映射到同一个栅格或相邻栅格中，从而引起数据的冲突或混淆。在栅格地图中，环境被划分为许多小的、固定尺寸的单元格，每个单元格存储关于该区域是否可通行的信息，空间分辨率过大、传感器误差或覆盖、动态环境的更新都可能引发特征碰撞问题。为了减少特征碰撞，我们可以使用更小的栅格尺寸、将多传感器的数据进行融合、持续更新和验证地图等。

预训练模型

如图 2 (b) 所示，然后我们将第 3.1 节中获得的混合图 $\left ( G_t,M_t \right )$ 输入到预训练模型中以获得多模态图表示。预训练模型包含拓扑图编码器和度量图编码器，它们分别将指令 $W$ 与 $G_t$ 和 $M_t$ 融合。输出随后被输入到三个预训练任务中，以学习面向导航的多模态地图表示（第 3.3 节）。

文本编码器

指令 $W$ 中的每个词嵌入都添加了位置嵌入[26]和文本类型嵌入[5]。然后，所有嵌入都被输入多层transformer，以获得上下文词嵌入 $\tilde{W}$ 。

拓扑图编码器

该模块采用拓扑图 $G_t$ 和编码指令 $\tilde{W}$ 进行节点级跨模态融合。

Node embedding

每个节点特征 $n_i\in N_t$ 都添加了位置嵌入和导航步骤嵌入。位置嵌入是通过每个节点到当前节点的相对方向和欧几里德距离来计算的。步骤嵌入是当前节点和已访问过的节点之间的最新访问步长，对于幽灵节点，是0。我们在图中添加一个零向量“停止”节点 $n_0$ 来表示停止动作，并将其与所有其他节点连接。

跨模态长期transformer

编码后的节点和词嵌入被输入多层transformer以进行节点级跨模态融合。每层的架构与LXMERT类似，包含一个双向交叉注意子层、两个自注意子层和两个前馈子层。在[24]的基础上，我们用图感知自注意（GASA）替换视觉自注意子层，它引入了用于节点编码的图拓扑。输出是节点-指令相关的表示 $\left ( \tilde{N}_t,\tilde{W}^G \right )$ 。

度量图编码器

该模块采用度量图 $M_t$ 和编码指令 $\tilde{W}$ 进行单元级跨模态融合。

cell embedding

对于每个网格特征 $m_{u,v}\in M_t$ ，添加了位置嵌入 $p_{u,v}$ 和导航嵌入 $n_{u,v}$ 。为了捕获代理与周围房间布局之间的关系，我们为每个单元设计了一个以自我为中心的位置嵌入：

其中 $\theta _{u,v}$ 和 $dis_{u,v}$ 表示一个单元格相对于智能体位置的相对航向和归一化距离。

对于位于局部动作空间 $\mathcal{A} ^M$ 中的单元，导航嵌入被设置为1，否则设置为0。

位置和导航嵌入都线性转换为 D 维。

跨模态短期transformer

编码后的单元和词嵌入被输入多层transformer以进行跨模态融合。每层架构与第 3.2.2 节中的类似，但使用自注意力进行单元编码而不是 GASA。短期transformer对细粒度（单元级）地图表示进行跨模态推理，这有利于推理复杂的空间关系，例如“进入楼梯右侧第二个走廊”。输出是与单元指令相关的表示 $\left ( \tilde{M}_t,\tilde{W}^M \right )$ 。

预训练任务

我们设计了三个任务来学习3.2节获得的多模态地图表示。

Masked Language Modeling（MLM）

MLM 是 BERT 预训练中最常用的代理任务。对于VLN任务，MLM的目标是通过推理周围的单词 $W_{\setminus m}$ 和混合地图，恢复屏蔽词 $W_m$ 。准确地说，我们首先以 15% 的概率随机屏蔽指令的输入标记，然后进行地图-指令交互，如第 3.2 节中所述。为了学习长期和短期推理，我们讲获得的 $\tilde{W}_{\setminus m}^G$ 和 $\tilde{W}_{\setminus m}^M$ 相加，然后将其输入 MLM 头，该任务通过最小化负对数似然来优化：

其中D表示训练数据集， $\theta$ 表示可训练参数。

Hybrid Single Action Prediction (HSAP)混合单动作预测

HSAP 旨在有利于下游目标：预测导航操作。我们的模型在全局动作空间 $\mathcal{A} ^G$ 预测一个整体的动作。为了制定更稳健的行动计划，我们将度量地图的短期推理结果集成到拓扑图中。

具体来说，我们首先使用单元到节点（3.1节的逆操作），完成局部动作空间 $\mathcal{A} ^M$ 转换到全局动作空间 $\mathcal{A} ^G$ ，即 $\tilde{M}_t^{'}=\left \{ \tilde{m}_i|i\in \mathcal{A} ^{G^{'}} \right \}$ ，其中 $\mathcal{A} ^{G^{'}}$ 是 $\mathcal{A} ^G$ 的子集。

然后使用两个前向神经网络预测节点 $\tilde{n}_i\in \tilde{N}_t$ 和单元 $\tilde{m}_i\in \tilde{M^{'}}_t$ 的导航分数，并且根据智能体的状态融合它们：

其中 $\delta _t=Sigmoid(FFN(\left [ \tilde{n} _0;\tilde{m}_{c,c} \right ] ))$ ， $\tilde{n} _0$ 表示填充的stop节点， $\tilde{m}_{c,c}$ 表示智能体的状态。

在大多数 VLN 任务中，不需要代理重新访问节点，因此我们mask访问过的节点的分数。我们通过融合分数 $\left \{ s_i \right \}$ 和教师动作 $a_t^{*}$ 的交叉熵损失进行优化：

Masked Semantic Imagination (MSI) mask语义想象

我们注意到度量图 $M_t$ 上存在一些未观察到的区域，这给决策带来了不确定性。为了缓解这个问题，我们建议 MSI 使代理能够通过对指令和部分观察到的地图进行推理，来想象未观察到的区域的信息。

具体来说，我们首先以15%的经验概率随机屏蔽度量图 $M_t$ 的单元来模拟未观察到的区域。然后用指令 $W$ 和掩码地图 $M_{t,\setminus m}$ 进行交互。最后MSI头强制模型预测语义掩码区域的语义S。度量图的每个单元可能包含多种语义；，因此，该任务被表述为多标签分类问题，并通过二元交叉熵损失进行优化：

其中， $S_i$ 表示对应于第 i 个语义类 (C = 40)，我们从 Matterport3D 数据集中获取这些标签。

训练和推理

训练

首先混合第 3.3 节中的三个任务，用离线专家数据预训练模型。

为了避免过度拟合专家经验，我们随后通过顺序动作预测来微调模型。在微调阶段，拓扑图 $G_t$ 在线更新。如图3所示，在步骤t，我们通过将新观察到的节点添加到 $G_{t-1}$ 并更新节点状态来获得 $G_t$ （模拟器会提供每一步的导航节点）。对于微调中的轨迹，我们交替运行“教师强制”和“学生强制”[1]。 “教师强迫”相当于等式5，代理始终执行教师动作。在“学生强迫”中，在每一步，下一个动作都是从预测分数分布（等式4）中采样并由伪标签监督[24]。

推理

在测试过程中的每个步骤中，智能体都会在线构建一个类似于微调阶段的混合地图，然后在该地图上执行跨模态推理，如第 3.2 节中所述。在 VLN 的单次运行设置之后，代理贪婪地选择具有最大预测分数（方程 4）的节点（幽灵节点或“停止”节点）作为下一个动作。 如果所选节点是长期动作（与当前节点不相邻），则智能体在当前拓扑图上使用 Dijkstra 算法规划到达所选节点的最短路径。 如果代理选择“停止”节点或达到最大操作步骤，它将停止。

实验

我们在 R2R [1]、R2RCE [27]、RxR [3] 和 REVERIE [2] 数据集上评估所提出的方法。 R2R、R2R-CE 和 RxR 专注于细粒度指令跟踪，而 R2R-CE 是连续环境中 R2R 的变体，RxR 提供更详细的路径描述（例如，对象及其关系）。 REVERIE 是一项使用粗粒度指令的目标导向任务，例如“前往入口通道并清洁咖啡桌”。

评估指标

轨迹长度（TL）：平均路径长度（以米为单位）；

导航误差 (NE)：最终位置和目标位置之间的平均距离（以米为单位）；

成功率（SR）：NE小于3米的路径的比例；

Oracle SR（OSR）：给定oracle停止策略的SR；

SPL；

NDTW；

SDTW

Object Grounding指标

我们使用RGS和RGSPL来评估物体grounding的能力。

除TL和NE外，所有指标均越高越好。

实现细节

图片处理和地图

我们将 RGB 图像调整大小并集中裁剪为 224 × 224。按照 [42, 67]，我们使用 ViT-B/16-CLIP [51] 来提取视觉特征。网格视觉特征的尺度为14×14（在ViT的MLP头之前输出）。我们将度量地图比例尺设置为21×21，每个单元代表一个边长为0.5m的正方形区域（因此整个地图为10.5m×10.5m）。

训练细节

我们模型中的可训练模块包括第 3.1 节中的全景编码器、文本编码器和两个地图编码器。对于所有数据集，我们首先使用 4 个 NVIDIA Tesla A100 GPU 以批量大小 64 进行 10 万次迭代的离线预训练 BEVert（约 10 小时）。我们分别使用 Prevalent [10]、RxR-Markey [69] 和 REVERIE-Spk [24] 合成指令作为 R2R/R2RCE、RxR 和 REVERIE 上的数据增强。我们选择具有最佳零样本性能的预训练模型（例如，R2R/R2R-CE 上的 SR + SPL、RxR 上的 SR + NDTW、REVERIE 上的 SR + RGS）作为下游微调的初始化。然后，我们使用替代的教师强制和学生强制在模拟器中在线微调模型，批量大小为 16，在 4 个 NVIDIA Tesla A100 GPU 上进行 40k 次迭代（约 20 小时）。最佳迭代是通过验证未见分割的最佳性能来选择的。

SOTA

R2R

与同样使用度量映射的 Chasing [62] 相比，我们的改进是巨大的（在测试中未见的分割上 ↑ 40 SR 和 ↑ 32 SPL）。我们将此归因于我们的混合地图设计，它平衡了短期推理和长期规划，而Chasing则采用度量地图，导致长期规划能力不理想。此外，Chasing 是从头开始训练的，而 BEVbert 通过所提出的预训练框架获得了卓越的泛化能力。

R2R-CE

图 2 显示了 R2R-CE 数据集上的结果。我们调整第 3.1 节中的拓扑映射过程，以使 BEVbert 适应连续环境。具体来说，在每一步中，代理都会预测一组路径点[70]并将它们组织为类似于[50]的拓扑图。 BEVbert 在 R2R-CE 数据集上设置了新的 SoTA，与仅拓扑图的 ETPNav 相比，SR 提高了 4 倍，SPL 提高了 2 倍 [50]。这进一步凸显了所提出的混合地图的功效。

RXR

RxR 比 R2R 更具挑战性，因为它的路径更长并且涉及更详细的路径描述。凭借细粒度的度量映射，BEVBert 能够熟练地处理这些复杂的指令，并取得了相当大的进步。

REVERIE

与 DUET 相比，测试未见分割的改进不太明显。我们将其归因于 val unseen 和 test unseen 分割之间的分布变化。

定量和定性分析

定量分析

我们的目标是评估 BEVbert 在涉及空间推理的指令上的表现，例如“进入楼梯右侧第二个走廊”。因此，从 R2R 和 RxR val 看不见的分割中，我们首先提取包含空间标记（例如“左边”、“最右边”）或数字标记（例如“第二”、“第四”）的相关指令。智能体的推理能力可以从它遵循这些指令的程度来推断。我们在图 4 中比较了 BEVert 和 SoTA 方法在这些指令上的性能。随着每条指令中特殊标记数量的增加，所有模型的性能都呈现下降趋势，这表明空间推理是现有方法的瓶颈。然而，BEVbert 始终优于这些同行，尤其是在包含更多空间描述的 RxR 数据集上。这凸显了 BEVbert 在空间推理方面的优越性。

定性分析

我们在图 5 中可视化 BEVbert 和 DUET [24] 的预测路径。DUET 使用离散全景进行局部推理，导致空间推理能力不理想。例如，它没有严格遵循说明（例如“在厨房柜台之间走”、“在沙发后面走”）并导致错误的端点。相比之下，由于明确的空间表示，BEVbert 可以解释这些复杂的描述并做出正确的决策。

消融实验

我们进行了大量的实验来评估 BEVert 的关键设计选择。结果报告为 R2R val 未见分割，并突出显示了主要指标。

地图变体的比较

图 5 展示了使用不同地图变体训练的模型的结果。第 1 行仅使用拓扑图进行动作预测。它达到了不错的 70.25 SR，但由于缺乏局部空间推理的度量信息，与混合地图（第 5 行、第 6 行）存在明显差距（∼ 4.5 SR）。第2行进一步将深度特征 [78] 融合到拓扑图的节点表示中，但没有增益。这表明简单的深度融合不能提高空间推理能力。第 3 行和第 4 行仅使用度量地图，导致 TL 较高，且导航性能（OSR 和 SR）较差，因为智能体缺乏长期规划能力并进行了一些无效的探索。在第 5 行和第 6 行中，应用所提出的拓扑-度量图时，导航性能大幅提高。这表明所提出的混合地图是上述两个地图之间的良好权衡，可以实现长期和短期的平衡决策。

sensing：真实深度，

estimated：估计深度

†表示在地形图设置中融合深度特征

真实深度指的是通过精确的测量工具或传感器（如激光雷达、结构光传感器等）获得的深度数据。这些数据直接反映了观察场景中各个物体的精确距离，因此它们是非常准确的，并可以直接用于计算和理解环境的三维结构。

估计深度是指通过算法或模型从二维图像中推算出的深度信息。这种方法依赖于计算机视觉技术，尤其是深度学习模型，通过分析图像的视觉线索（如纹理渐变、大小变化、透视信息等）来估算场景中各个物体的距离。

对深度传感器的依赖

我们采用域内预训练的 RedNet [79] 进行深度估计，然后研究 BEVbert 对深度传感器的依赖性。如图 5 所示（第 3 行与第 4 行、第 5 行与第 6 行），应用估计深度进行度量映射时几乎没有性能下降。这表明我们的方法并不高度依赖精确的深度感测。主要原因是我们的度量图是在特征空间中构建的，其中我们使用粗糙的网格深度（例如，14×14）进行特征投影。我们相信 BEVbert 有潜力扩展到无法使用深度传感器的合成环境 [41, 80] 的大规模训练中。

预训练任务的影响

图6说明了不同预训练任务的效果。第 1 行从头开始训练模型。它的性能最差，因为学习的地图缺乏通用的多模态表示。通过通用 MLM 任务，第 2 行可以实现不错的性能（例如 73.52 SR 和 60.13 SPL）。然而，TL 较高，因此导致与第 3 行和第 4 行相比，具有较低的 SPL。在第 3 行中，TL 降低，并且在应用 HSAP 任务后 SPL 显着增加（例如，第 2 行 ↑ 2.90 SPL）。 它表明动作预测任务有利于学习动作通知的地图表示以实现高效导航。 第 4 行进一步提高了建议的 MSI 任务的导航性能（例如，与第 3 行相比，SR ↑ 0.85 SR 和 SPL ↑ 0.57）。潜在的原因是智能体学会想象未观察到的区域并减少决策的不确定性，这有助于概括未见过的环境。

度量地图的比例和大小

表7报告了 BEVbert 使用不同尺度和大小的度量图以及短期 Transformer flops的性能。随着地图大小的增加（第 2 行与第 1 行），性能呈上升趋势，因为代理可以感知边界范围内的环境。当网格大小减小时，第 3 行的表现略好于第 2 行，这有助于更好地感知微小物体。随着地图尺度的增大，第4行的性能提升并不明显。潜在的原因在于用于捕获远程导航依赖需要使用拓扑图；因此，大的度量地图只会带来边际效益。另一方面，较大的度量地图会导致大量计算。因此，第 3 行是我们的默认设置。

度量图的多步积分效果

我们在第 3.1 节中设计了一种用于度量图的局部集成策略，它结合了 κ 阶内访问节点的历史观察结果。图8呈现κ的效果。当 κ = 0 时，度量图仅根据当前节点的观测值构建。由于缺乏历史信息，它的性能最差，这可能会使智能体无法理解提到的短期时间依赖性，当合并一阶历史观测值时，第 2 行比第 1 行将 SPL 提高了 1.23，但随着第 3 行中 κ 的增加，没有更多增益。因为一阶积分对于小型局部地图来说已经足够了。

视觉特征

BEVbert 通过 CLIP 预训练功能实现了更好的性能，如表 9 所示。 Imagenet 特征可能缺乏多样化的视觉概念，因为它们是通过专注于图像显着区域的单一热分类任务来学习的。相比之下，CLIP 特征是通过大规模图像文本匹配来学习的，其中视觉网格特征是通过不同的语言概念来了解的[67]，这更适合度量图。

总结

在本文中，我们首先设计了一个混合图来平衡 VLN 对短期推理和长期规划的需求。基于混合图，我们提出了一种新的预训练范例 BEVbert，以学习显式空间表示中的视觉文本关联。我们凭经验验证学习的多模态地图表示可以增强空间感知的跨模态推理并促进最终的语言引导导航目标。大量的实验证明了所提出方法的有效性，并且 BEVbert 达到了最先进的水平。