ACL-2024 | MapGPT:基于地图引导提示和自适应路径规划机制的视觉语言导航

news/2024/12/21 19:11:39/

  • 作者: Jiaqi Chen, Bingqian Lin, Ran Xu, Zhenhua Chai, Xiaodan Liang, Kwan-Yee K. Wong,

  • 单位: 香港大学,中山大学深圳校区,美团

  • 原文链接:MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation (https://aclanthology.org/2024.acl-long.529.pdf)

  • 项目主页:https://chen-judge.github.io/MapGPT/

  • 代码链接:https://github.com/chen-judge/MapGPT/

主要贡献

  • 论文提出了MapGPT,基于地图引导的GPT智能体,用于解决视觉语言导航中的全局探索和路径规划问题。

  • 提出了在线构建的语言形式的地图,包括节点信息和拓扑关系,以促进GPT进行全局探索。并将地图的拓扑关系转换为文本Prompt,使GPT更容易理解空间结构,激活GPT的多步路径规划能力。

  • MapGPT能够动态生成和更新其多步路径规划,而不是记录每一步的思考过程,更符合人类思维模式。

  • MapGPT可以应用于GPT-4和GPT-4V,并且能够轻松适应不同的指令风格,在R2R和REVERIE数据集上均达到了最先进的zero-shot性能。

研究背景

研究问题

论文主要解决的问题是如何在视觉语言导航(VLN)任务中,利用大语言模型(LLMs)进行zero-shot导航。

现有的zero-shot VLN智能体仅prompt GPT-4选择局部环境中的潜在位置,而没有构建一个有效的“全局视图”来理解整体环境。

研究难点

该问题的研究难点包括:

  • 如何在不依赖大规模训练数据的情况下,使智能体能够进行全局探索和路径规划;

  • 如何在多模态LLM(如GPT-4V)上进行有效的导航。

相关工作

该问题的研究相关工作有:

  • 基于学习的方法(如Anderson等人,2018b),

  • 预训练模型(如Hong等人,2021),

  • 以及基于GPT的zero-shot智能体(如Zhou等人,2023)。

这些方法在处理多模态信息和zero-shot导航方面存在一定的局限性。

研究方法

论文提出了MapGPT,一种基于地图引导的GPT智能体,用于解决视觉语言导航中的全局探索和路径规划问题。

单专家Prompt系统

提出了单专家Prompt系统,该系统适用于GPT-4和GPT-4V,并且可以灵活地应用于不同的指令风格。该系统集成了指令、历史记录、观察结果和行动空间等多种输入信息。

地图引导Prompt

为了促进全局探索,提出了地图引导的Prompt方法,将在线构建的拓扑地图转换为文本Prompt,帮助GPT理解导航环境。

  • 拓扑映射:在线构建地图并将其存储为动态更新的图,记录所有观察到的节点及其连接关系。

  • 构建地图:将地图的拓扑关系转换为文本Prompt,保留节点的ID而不使用精确的GPS坐标。

  • 地图注释:在每个节点上添加注释,使智能体能够在路径规划时进行参考。

自适应路径规划

提出了自适应规划机制,使智能体能够在每一步动态生成和更新多步路径规划。具体步骤包括:

  • 规划迭代:智能体结合当前的思考、地图和之前的规划,自适应地更新新的多步路径规划。

  • 多步规划:智能体在规划过程中可以关注多个潜在的节点或子目标,并在必要时回溯到特定节点进行重新探索。

实验设计

数据集

选择了R2R和REVERIE两个流行的VLN基准数据集进行验证。

  • R2R提供详细的逐步指令,

  • REVERIE仅提供高层次的目标描述。

评估指标

评估指标包括导航错误(NE)、成功率(SR)、Oracle成功率(OSR)和路径长度加权成功率(SPL)。

实验设置

在Matterport3D模拟器中进行实验,该模拟器提供了一个离散的导航环境,预定义了可导航的视点。

每个视点处,智能体可以获得视觉观察结果和一些可连接的可导航候选视点,这些信息被整合到Prompt中供GPT使用。

结果与分析

R2R数据集上的结果

在各种场景下,MapGPT在zero-shot性能上优于现有的NavGPT和DiscussNav。例如,在使用GPT-4V作为一级智能体时,MapGPT的成功率为47.7%。

与基于GPT-4的MapGPT相比,基于GPT-4V的MapGPT在SPL指标上表现更好,达到38.1%。

REVERIE数据集上的结果

MapGPT在REVERIE数据集上表现出更强的竞争力,成功率达到31.6%,显著优于zero-shot NavGPT和一些训练的方法。

此外,与经过预训练和微调的HAMT相比,MapGPT也表现出可观的性能。

消融研究

通过消融实验,验证了地图引导和自适应路径规划机制在提高导航性能方面的有效性。

与基于精确坐标的地图相比,基于拓扑关系的地图显著提高了性能。自适应路径规划机制也比全局动作规划机制更有效。

总结

论文提出zero-shot智能体MapGPT,用于视觉语言导航任务。MapGPT利用地图引导的提示方法,构建了在线拓扑地图,并通过自适应路径规划机制实现了多步路径规划。

实验结果表明,MapGPT在R2R和REVERIE数据集上均达到了最先进的zero-shot性能,展示了全局思考和路径规划能力。


http://www.ppmy.cn/news/1556994.html

相关文章

跨站脚本攻击(XSS)可能存在的位置与实操演示

免责申明 本文仅是用于学习研究XSS攻击的原理,请勿用在非法途径上,若将其用于非法目的,所造成的一切后果由您自行承担,产生的一切风险和后果与笔者无关;本文开始前请认真详细学习《‌中华人民共和国网络安全法》【学法时习之丨网络安全在身边一图了解网络安全法_中央网络安…

量子通信学习路径(一)

量子通信是一门融合量子力学和通信技术的交叉学科,其核心目标是利用量子力学的特性(如叠加态和纠缠)实现信息传递和安全通信。以下是一个系统学习量子通信的完整大纲,从基础知识到实际应用逐步深入,帮助建立全面的知识…

JVM(Java虚拟机)分区详情

JVM(Java虚拟机)运行时数据区是Java虚拟机的内存管理模型,它包括了多个关键的内存区域,这些区域各自承担着不同的职责,共同支持着Java程序的运行。以下是JVM运行时数据区的详细介绍: 一、整体概述 JVM运行时数据区按照线程占用的情况可以分为两类:线程共享和线程独享。…

JavaEE 【知识改变命运】06 多线程进阶(1)

文章目录 锁一常见的锁乐观锁和悲观锁轻量级锁和重量级锁自旋锁和挂起等待锁读写锁和普通互斥锁公平锁和不公平锁可重入锁和不可重入锁sycnchroized是什么锁 CAS什么是CASCAS伪代码CSA是怎么实现的CAS如何保证线程安全的呢实现自旋锁JDK中提供的使用自旋锁的方式处理锁竞争CAS …

c++理解(三)

本文主要探讨c相关知识。 模板是对类型参数化 函数模板特化不是模板函数重载 allocator(空间配置器):内存开辟释放,对象构造析构 优先调用对象成员方法实现的运算符重载函数,其次全局作用域找 迭代器遍历访问元素,调用erase,insert方法后,当前位置到容器…

Guava 库中的 `Multiset` 是一个允许元素重复的集合

Guava 库中的 Multiset 是一个允许元素重复的集合。它继承自 Collection 接口,提供了额外的方法来处理元素的计数。以下是一些使用 Guava Multiset 的基本代码示例: 引入 Guava 库 首先,确保你的项目中已经添加了 Guava 库的依赖。如果你使…

idea无法识别文件,如何把floder文件恢复成model

前景: 昨天,我在之前的A1214模块包下新增了一个demo类,然后又新建了一个A1216模块,写了算法题,后面打算用git提交,发现之前的A1214模块下的demo类和新建的模块源文件都已经被追踪了,都是绿色的&…

STM32单片机芯片与内部33 ADC 单通道连续DMA

目录 一、ADC DMA配置——标准库 1、ADC配置 2、DMA配置 二、ADC DMA配置——HAL库 1、ADC配置 2、DMA配置 三、用户侧 1、DMA开关 (1)、标准库 (2)、HAL库 2、DMA乒乓 (1)、标准库 &#xff…