CVPR-2025 | 长程视觉语言导航平台与数据集：迈向复杂环境中的智能机器人

作者：Xinshuai Song, Weixing Chen, Yang Liu, Weikai Chen, Guanbin Li, Liang Lin
单位：中山大学，Independent Researcher，鹏城实验室
项目主页：https://hcplab-sysu.github.io/LH-VLN
论文地址：https://arxiv.org/pdf/2412.09082

从“拿毛巾到厨房岛台，再取茶壶放到茶几”到“找到客厅的遥控器后去卧室关灯”，现实中的机器人需要完成的往往是包含多个步骤的长链条任务。然而，现有的视觉语言导航（Vision-Language Navigation, VLN）技术大多局限于单一目标、短路径的简单场景，难以应对复杂环境中的多阶段挑战。

近日，中山大学HCP-Lab团队提出复杂长程视觉语言导航（LH-VLN）任务，并配套开发了自动化数据生成平台NavGen、复杂长程导航基准测试LHPR-VLN，以及创新模型MGDM，为智能机器人在动态复杂环境中的自主导航开辟了新路径。目前该论文已被CVPR2025接收。

困境：单阶段导航的“玻璃天花板”

传统VLN任务通常要求机器人根据指令完成单一目标的导航，例如“走到客厅的沙发旁”。这类任务在实验室中表现优异，但面对现实场景时却捉襟见肘——真正的挑战往往需要连续决策和动态调整。例如，家政机器人可能需要先找到浴室中的毛巾，将其送至厨房岛台，再取出茶壶放置在茶几上。这类任务不仅涉及多个子目标，还需要在过程中保持上下文连贯性，避免因环境变化或路径阻塞导致任务中断。

现有研究的短板显而易见：

数据局限：主流数据集（如R2R、VLN-CE）任务步骤短（平均<10步），缺乏多阶段交互设计；
评估粗放：仅用整体成功率（SR）衡量性能，无法反映子任务执行质量；
模型僵化：依赖静态路径规划，缺乏长期记忆和动态调整能力。

“要让机器人真正走进家庭，必须突破单阶段任务的思维定式。” 论文作者在引言中直指问题核心。

图1. 框架总览以及与现有单阶段导航的对比

破局：NavGen——复杂任务数据的“全自动工厂”

为解决数据瓶颈，研究团队开发了NavGen平台，这是一个支持多阶段、多粒度任务生成的自动化系统。其核心创新在于双向生成机制：

前向生成：基于GPT-4构建复杂任务指令。例如，输入浴室和厨房的场景信息后，自动生成“将浴室毛巾送至厨房岛台，再取茶壶放到客厅茶几”的多步骤任务；
后向分解：通过轨迹分割算法，将长路径拆解为“左转绕过沙发”“直行至餐桌”等原子动作，并反向生成对应的分步指令。

图2. NavGen通过前向生成复杂任务，后向分解为原子动作，形成完整数据闭环

NavGen的三大优势使其成为VLN领域的“数据引擎”：

场景多样性：整合HM3D数据集中的216个3D室内场景，涵盖卧室、厨房、办公室等多种环境；
机器人适配：支持波士顿动力Spot（四足机器人）和Hello Robot Stretch（轮式机械臂）等不同形态的任务设置；
任务复杂度：单个任务可包含4-6个子步骤，平均指令长度达18.17词，远超传统数据集。

“这相当于为模型提供了‘任务炼狱’级别的训练场。” 研究者如此评价NavGen的生成能力。

试金石：LHPR-VLN基准——让模型“原形毕露”

基于NavGen，团队构建了复杂长程VLN基准LHPR-VLN，包含3260个任务，平均每个复杂任务需执行150个动作步骤。与传统基准相比，LHPR-VLN有两大革新：

1. 任务设计：从“线性执行”到“逻辑串联”

每个任务要求机器人按顺序完成对象定位-抓取-转移的链条操作。例如： “在卧室找到台灯，将其搬到书房书桌，再取出桌上的文件放到文件柜。” 这种设计迫使模型必须理解任务间的逻辑依赖——若未能正确放置台灯，后续寻找文件的子任务将直接失败。

表1. 与现有VLN基准的对比

2. 评估体系：从“笼统打分”到“显微镜式诊断”

传统指标如成功率（SR）已无法满足需求，LHPR-VLN引入三大新指标：

独立成功率（ISR）：衡量每个子任务的单独完成度；
条件成功率（CSR）：评估任务链条的整体连贯性；
基于真实路径加权的CGT：考虑实际路径难度，避免“取巧式”成功。

是任务的数量，是子任务的数量。

是第个子任务的成功情况。

CSR通过加权计算任务链的连贯性，CGT进一步引入真实路径长度修正偏差

实验显示，传统模型在LHPR-VLN上表现惨淡：在2-3个子任务场景中，所有基线模型的整体成功率（SR）均为0%，凸显现有技术的局限性。

表2. 在LHPR-VLN基准上的性能对比

智慧大脑：MGDM模型——记忆与推理的“双螺旋”

为攻克复杂长程导航难题，团队提出多粒度动态记忆模型（MGDM），其核心架构如同“生物神经系统”：

记忆分层：短期模糊与长期强化
- 短期记忆：通过滑动窗口池化动态“遗忘”次要信息；
- 长期记忆：从数据集中检索历史成功案例，为当前决策提供参考。
链式思维（CoT）反馈：让AI“说出推理过程”
- 模型在一定行动步，会通过GPT-4生成推理链条：“当前位于走廊，需先左转进入浴室；浴室门可能位于左侧视野，需向前移动2步确认...” 这种显式推理机制大幅降低了传统LLM模型的“幻觉”风险，使决策过程可解释、可调整。