Hierarchical Cross-Modal Agent for Robotics Vision-and-Language Navigation

题目：用于视觉语言导航的层次化跨模态智能体

摘要

1. 问题背景和现有方法

VLN任务：这是一种复杂的任务，要求智能体基于视觉输入和自然语言指令进行导航。
现有方法的局限性：之前的工作大多将这个问题表示为离散的导航图，智能体的动作空间是有限的、离散的。

2. 新提出的设置

Robo-VLN：这篇论文提出了一种新的任务环境，名为Robo-VLN。该设置更加复杂，因为智能体不再局限于离散的导航图，而是在连续的三维重建环境中进行操作。这个新环境更接近现实中的导航问题。
Robo-VLN的挑战：
- 轨迹长度更长
- 动作空间是连续的
- 存在障碍物等现实问题

3. 基准和问题

研究者提供了一个基于现有VLN方法的基准测试，发现它们在Robo-VLN任务中效果较差。这表明，传统方法在面对更加复杂和连续的环境时，适应性较弱。

4. 新方法

分层决策：研究者提出了一种新的智能体模型，即分层的高层与低层策略来解决这一问题。
HCM智能体：这个模型通过层次化的决策过程，模块化的训练方式，以及将推理与模仿学习的过程分开，能够更有效地处理Robo-VLN任务。

5. 实验结果

通过大量的实验，研究者证明了他们提出的HCM智能体在各项关键指标上优于现有基准，设立了新的Robo-VLN任务的基准。

总结：

这篇论文的核心贡献在于：

提出了一个更接近现实世界的视觉与语言导航任务（Robo-VLN），增加了问题的复杂性。
通过分层决策、模块化训练和推理与模仿的解耦，提出了HCM智能体，解决了之前方法在连续环境中的不足。

引言

1. 背景与动机

个人助理机器人：该研究旨在推动个人助理机器人能够无缝执行人类指令，尤其是在现实环境中。深度学习和深度强化学习的进展为这一领域带来了可能性，但仍有很多挑战需要克服。
现有工作与模拟环境：由于现实环境中收集数据的难度，很多研究使用了类似Matterport3D和Gibson等模拟环境来训练智能体。这些环境允许研究人员通过视觉和语言输入训练自主导航智能体。
VLN任务的定义：VLN任务要求智能体仅依靠视觉输入和语言指令进行导航，且没有预先提供的全球地图。

2. 现有方法的局限性

离散动作空间的假设：之前的工作大多将导航问题简化为离散的导航图，这些工作假设智能体在已知的拓扑结构中能进行完美的定位，并且没有障碍物。这些假设与现实世界中的问题有很大差距，特别是在连续控制和复杂环境感知方面。

3. Robo-VLN的提出

Robo-VLN任务：本文的第一个贡献是提出了一种更复杂的、基于连续控制的VLN任务。该任务不再依赖离散的导航图，而是要求智能体在连续的三维环境中执行任务。这使得问题更贴近现实，增加了轨迹长度和任务复杂性。
Robo-VLN的挑战：研究表明，之前为离散环境设计的模型在这种连续控制的长轨迹任务中表现较差，表明现有方法不能很好地适应这种复杂环境。

4. 层次化方法的提出

层次化分解：为了应对连续控制环境中的VLN任务，研究者提出了一种分层决策模型。
分层决策模型的关键能力：
1. 推理与模仿的解耦：通过高层策略和低层策略的分工，高层策略负责将语言指令与视觉输入匹配，推理已完成的指令，并进行任务的子目标推理；低层策略则模仿控制器的反馈，基于视觉状态和子目标进行具体行动。
2. 模块化训练：通过将推理与控制分离，复杂的长时间任务被分解为短时间的子任务。每个模块有自己独立的目标，采用端到端的训练方式，且层次之间的通信仅限于子目标信息。

5. 贡献总结

突破离散假设：这是首个将VLN任务表述为连续控制问题的工作，抛弃了导航图和离散动作空间的假设。
提出层次化的HCM智能体：通过分层决策和模块化训练，该智能体能够更有效地处理跨模态任务，尤其是长时间和复杂环境中的任务。
性能提升：通过与现有方法的对比，研究表明提出的方法在Robo-VLN任务中设立了新的基准，相对于未见环境的验证数据集，绝对成功率提升了13%。

ROBO-VLN

任务定义

1. Robo-VLN的引入

Robo-VLN任务：该任务是现有视觉与语言导航（VLN）任务的一种扩展，采用连续控制的形式，目的是更加接近现实世界中的导航挑战。与以往基于导航图或离散的VLN任务相比，Robo-VLN增加了轨迹长度、视觉帧数以及动作的多样性。
任务特点：
- 平均每条轨迹的步数增加了4.5倍，意味着需要智能体执行更长时间的决策。
- 提供了大约350万帧的视觉输入，极大地增加了感知任务的复杂性。
- 具有更加平衡的高层次动作分布，意味着智能体在导航时需要处理更广泛的控制和决策。

成功标准：任务的成功标准为：
1. 智能体与目标之间的距离小于3米的阈值，且执行了停止动作
2. 智能体与目标之间的距离小于3米的阈值，其角速度减少到某一阈值以下来停止

连续VLN环境的构建

层次跨模态智能体

High-Level 策略

多模态交叉注意力编码器

多模态注意力解码器

Low-Level 策略

训练细节

数据集细节

1. 模拟器和数据集

Habitat模拟器：实验是在Habitat模拟器上进行的。Habitat是一种用于强化学习和导航任务的高效模拟环境，能够在高保真3D环境中进行快速模拟。
Robo-VLN数据集：Robo-VLN数据集是基于Matterport3D数据集构建的。Matterport3D数据集包含了90个环境，这些环境通过大约10,000个高分辨率RGB-D全景图像进行捕捉。Robo-VLN数据集提供了3,177条轨迹，每条轨迹与来自R2R数据集的人工注释指令相对应。
- 数据集规模：Robo-VLN数据集中总共有9,533对专家指令和轨迹，平均每条轨迹的步数为326步，相比之下，VLN-CE数据集的平均轨迹步数为55.8，R2R数据集为5步。
- 数据集划分：数据集分为三个部分：训练集、验证集（已见环境）和验证集（未见环境）。

2. 评估指标

实验采用了一系列标准的评估指标来衡量模型的性能：

成功率 (Success Rate, SR)：衡量智能体是否到达了目标位置。
路径长度加权成功率 (Success weighted by Path Length, SPL)：不仅考虑成功率，还将路径长度纳入考量，强调智能体在最短路径内到达目标的能力。
归一化动态时间规整 (Normalized Dynamic Time Warping, NDTW)：比较智能体的轨迹与地面真值轨迹的相似度，注重智能体是否遵循了地面真值的完整路径。
轨迹长度 (Trajectory Length, TL)：智能体在导航中的实际路径长度。
导航误差 (Navigation Error, NE)：智能体最终停止的位置与目标点的距离。

主要评价指标：

SPL 和 NDTW 被认为是主要的对比指标。SPL更侧重于智能体是否成功到达目标，而NDTW更关注智能体是否跟随了地面真值路径。

3. 实现细节

特征提取：
- ResNet-50：使用在ImageNet上预训练的ResNet-50模型从RGB图像中提取空间特征。
- DDPPO预训练ConvNet：使用在大规模点目标导航任务上预训练的卷积神经网络（ConvNet）从深度图像中提取特征。
Transformer模块：Transformer模块的配置如下：
- 隐藏层大小 H=256H = 256H=256
- Transformer头的数量 nh=4n_h = 4nh=4
- 前馈层的大小 FF=1024FF = 1024FF=1024
截断反向传播 (Truncated Backpropagation Through Time, TBPTT)：由于Robo-VLN任务涉及长时间序列，模型训练时采用了截断反向传播来提高训练效率。截断长度为100步，用于训练注意力解码器。
训练：
- 网络训练了20个epoch，使用“早停法”（early stopping）来根据验证集上的表现终止训练。

实验

1. 平坦基线模型 (Flat Baselines)

研究者提出了一套平坦基线模型，用于与他们的分层模型进行比较。这些基线模型与VLN-CE中的基线类似，但有一些适应性变化：

Seq2Seq：一种编码器-解码器结构，通过教师强制（teacher-forcing）训练。
Progress Monitor (PM)：基于Seq2Seq模型，增加了一个用于进度监控的辅助损失。
Cross-Modal Attention (CMA)：一种基于跨模态注意力的模型，类似于RCM。
输出变化：这些基线模型的输出从离散的动作空间（向前、左转、右转、停止）转变为预测连续的线速度、角速度和停止动作。

2. 与平坦基线模型的比较

研究者的分层策略模型（HCM）在Robo-VLN任务中取得了明显优于平坦基线模型的性能：

验证未见环境中的表现：HCM模型的成功率（SR）为46%，路径长度加权成功率（SPL）为40%，相比最佳基线模型分别提高了13%和10%。
长远影响：这些结果表明，HCM的分层结构在处理长时间、跨模态的路径跟踪任务时表现更优越。

3. 消融实验

消融实验用于验证不同设计选择对HCM模型的影响，结果总结如下：

视觉信息的重要性：去除视觉输入后，模型的表现与随机智能体相近（SPL和SR均为0.07），这表明视觉输入在真实模拟环境中的重要性。
RGB和深度融合的时机：将RGB和深度信息在跨注意力层之前融合的架构表现不如单独对齐RGB和深度与语言指令的架构，这表明在视觉模态上进行分开对齐的有效性。
层次结构的重要性：去除层次结构的实验表明，尽管提供了辅助子目标监督，平坦模型的性能仍低于分层模型（如SR从46%降到40%，SPL从40%降到34%）。这证明了层次化策略在任务中的关键作用。

4. 层次结构的影响

层次结构的来源：HCM模型通过分层决策，将复杂的任务分解为高层次的子目标预测和低层次的速度控制预测。实验结果显示，即使在给予辅助监督的情况下，平坦的模型也无法达到分层模型的表现。这表明分离推理和模仿的做法有助于学习有效的单独策略。

5. 定性比较

定性分析：研究者对比了分层智能体和平坦智能体的表现，结果显示分层智能体能够成功预测低层次的速度命令，并在511步内成功到达目标。而平坦智能体则在导航中多次碰到障碍物，最终在1000步内仍未能到达目标。

6. 总结

分层策略优势：通过消融实验和定性分析，研究者证明了分层策略的优势。分层结构不仅能有效处理长时间的任务，还能够将复杂的跨模态推理任务拆解为易于处理的子任务。
与基线模型的比较：HCM模型在长时间、连续控制的任务中表现显著优于基线模型，尤其是在处理跨模态信息和长时间依赖时，分层策略的设计至关重要。

这种分层策略使得Robo-VLN任务中的智能体在面对复杂导航任务时能够更有效地做出决策，成功率和路径跟踪能力都有显著提升。