ACL-2024 | MapGPT:基于地图引导提示和自适应路径规划机制的视觉语言导航

embedded/2024/12/24 4:10:10/

  • 作者: Jiaqi Chen, Bingqian Lin, Ran Xu, Zhenhua Chai, Xiaodan Liang, Kwan-Yee K. Wong,

  • 单位: 香港大学,中山大学深圳校区,美团

  • 原文链接:MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation (https://aclanthology.org/2024.acl-long.529.pdf)

  • 项目主页:https://chen-judge.github.io/MapGPT/

  • 代码链接:https://github.com/chen-judge/MapGPT/

主要贡献

  • 论文提出了MapGPT,基于地图引导的GPT智能体,用于解决视觉语言导航中的全局探索和路径规划问题。

  • 提出了在线构建的语言形式的地图,包括节点信息和拓扑关系,以促进GPT进行全局探索。并将地图的拓扑关系转换为文本Prompt,使GPT更容易理解空间结构,激活GPT的多步路径规划能力。

  • MapGPT能够动态生成和更新其多步路径规划,而不是记录每一步的思考过程,更符合人类思维模式。

  • MapGPT可以应用于GPT-4和GPT-4V,并且能够轻松适应不同的指令风格,在R2R和REVERIE数据集上均达到了最先进的zero-shot性能。

研究背景

研究问题

论文主要解决的问题是如何在视觉语言导航(VLN)任务中,利用大语言模型(LLMs)进行zero-shot导航。

现有的zero-shot VLN智能体仅prompt GPT-4选择局部环境中的潜在位置,而没有构建一个有效的“全局视图”来理解整体环境。

研究难点

该问题的研究难点包括:

  • 如何在不依赖大规模训练数据的情况下,使智能体能够进行全局探索和路径规划;

  • 如何在多模态LLM(如GPT-4V)上进行有效的导航。

相关工作

该问题的研究相关工作有:

  • 基于学习的方法(如Anderson等人,2018b),

  • 预训练模型(如Hong等人,2021),

  • 以及基于GPT的zero-shot智能体(如Zhou等人,2023)。

这些方法在处理多模态信息和zero-shot导航方面存在一定的局限性。

研究方法

论文提出了MapGPT,一种基于地图引导的GPT智能体,用于解决视觉语言导航中的全局探索和路径规划问题。

单专家Prompt系统

提出了单专家Prompt系统,该系统适用于GPT-4和GPT-4V,并且可以灵活地应用于不同的指令风格。该系统集成了指令、历史记录、观察结果和行动空间等多种输入信息。

地图引导Prompt

为了促进全局探索,提出了地图引导的Prompt方法,将在线构建的拓扑地图转换为文本Prompt,帮助GPT理解导航环境。

  • 拓扑映射:在线构建地图并将其存储为动态更新的图,记录所有观察到的节点及其连接关系。

  • 构建地图:将地图的拓扑关系转换为文本Prompt,保留节点的ID而不使用精确的GPS坐标。

  • 地图注释:在每个节点上添加注释,使智能体能够在路径规划时进行参考。

自适应路径规划

提出了自适应规划机制,使智能体能够在每一步动态生成和更新多步路径规划。具体步骤包括:

  • 规划迭代:智能体结合当前的思考、地图和之前的规划,自适应地更新新的多步路径规划。

  • 多步规划:智能体在规划过程中可以关注多个潜在的节点或子目标,并在必要时回溯到特定节点进行重新探索。

实验设计

数据集

选择了R2R和REVERIE两个流行的VLN基准数据集进行验证。

  • R2R提供详细的逐步指令,

  • REVERIE仅提供高层次的目标描述。

评估指标

评估指标包括导航错误(NE)、成功率(SR)、Oracle成功率(OSR)和路径长度加权成功率(SPL)。

实验设置

在Matterport3D模拟器中进行实验,该模拟器提供了一个离散的导航环境,预定义了可导航的视点。

每个视点处,智能体可以获得视觉观察结果和一些可连接的可导航候选视点,这些信息被整合到Prompt中供GPT使用。

结果与分析

R2R数据集上的结果

在各种场景下,MapGPT在zero-shot性能上优于现有的NavGPT和DiscussNav。例如,在使用GPT-4V作为一级智能体时,MapGPT的成功率为47.7%。

与基于GPT-4的MapGPT相比,基于GPT-4V的MapGPT在SPL指标上表现更好,达到38.1%。

REVERIE数据集上的结果

MapGPT在REVERIE数据集上表现出更强的竞争力,成功率达到31.6%,显著优于zero-shot NavGPT和一些训练的方法。

此外,与经过预训练和微调的HAMT相比,MapGPT也表现出可观的性能。

消融研究

通过消融实验,验证了地图引导和自适应路径规划机制在提高导航性能方面的有效性。

与基于精确坐标的地图相比,基于拓扑关系的地图显著提高了性能。自适应路径规划机制也比全局动作规划机制更有效。

总结

论文提出zero-shot智能体MapGPT,用于视觉语言导航任务。MapGPT利用地图引导的提示方法,构建了在线拓扑地图,并通过自适应路径规划机制实现了多步路径规划。

实验结果表明,MapGPT在R2R和REVERIE数据集上均达到了最先进的zero-shot性能,展示了全局思考和路径规划能力。


http://www.ppmy.cn/embedded/148243.html

相关文章

armsom产品Debian系统开发

第一章 构建 Debian Linux 系统 我们需要按【armsom产品编译&烧录Linux固件】全自动编译一次,默认是编译 Buildroot 系统,也会编 译 uboot 和内核,buildroot 某些软件包依赖内核,所以我们必须编译内核再编译 Buildroot。同 理…

什么?Flutter 可能会被 SwiftUI/ArkUI 化?全新的 Flutter Roadmap

在刚刚过去的 FlutterInProduction 活动里,Flutter 官方除了介绍「历史进程」和「用户案例」之外,也着重提及了未来相关的 roadmap ,其中就有 3.27 里的 Swift Package Manager 、 Widget 实时预览 和 Dart 与 native 平台原生语言直接互操作…

学习ASP.NET Core的身份认证(基于JwtBearer的身份认证2)

根据参考文献8中的介绍,JWT Token主要分为3个部分:   1)标题(Header):主要记录令牌类型、签名算法(加密算法)类型,格式为Json字符串,然后使用Base64编码字符…

探索Linux中的Zombie僵死进程

文章目录 探索Linux中的Zombie僵死进程什么是Zombie僵死进程?僵死进程的产生原因如何识别僵死进程?如何清理僵死进程?僵死进程对系统的影响总结 探索Linux中的Zombie僵死进程 在Linux系统中,进程管理是一个非常重要的主题&#x…

Python发送带key的kafka消息

在Python中发送带有键(key)的Kafka消息,通常会使用confluent-kafka或kafka-python这样的库。这里我将分别展示如何使用这两个库来实现这个功能。 ### 使用 confluent-kafka 首先,确保你已经安装了confluent-kafka库。如果没有安装…

陪诊小程序搭建,打造一站式陪诊服务

当下,陪诊市场正在持续火热发展,在全国医疗行业中,陪诊师成为了一个重要的就医方式。陪诊师的出现在快节奏生活下显得尤为重要,为不少没有时间陪老人去医院的家庭以及对医院不熟悉的提供了便利,满足了众多患者及其家属…

梳理你的思路(从OOP到架构设计)_介绍GoF设计模式

目录 GoF的由来 GoF的种类 GoF的由来 裁缝有样式、围棋有棋谱、烹饪有食谱、武功有招式、战争有兵法, ..... 皆是专家和高手的经验心得,通称为:模式(Pattern)。模式告诉您理想的方案像什么、有那些特性﹔ 同时也告诉您些规则,让…

python实现基于RPC协议的接口自动化测试

01 什么是RPC RPC(Remote Procedure Call)远程过程调用协议是一个用于建立适当框架的协议。从本质上讲,它使一台机器上的程序能够调用另一台机器上的子程序,而不会意识到它是远程的。 RPC 是一种软件通信协议,一个程…