具身智能体俯视全局的导航策略！TopV-Nav: 解锁多模态语言模型在零样本目标导航中的顶视空间推理潜力

具身智能体俯视全局的导航策略！TopV-Nav: 解锁多模态语言模型在零样本目标导航中的顶视空间推理潜力

embedded/2025/1/30 23:18:12/

作者：Linqing Zhong, Chen Gao, Zihan Ding, Yue Liao, Si Liu
单位：北京航空航天大学，新加坡国立大学，香港中文大学多模态实验室
论文标题：TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation
论文链接：https://arxiv.org/pdf/2411.16425

主要贡献

直接在俯视图上进行空间推理：提出了TopV-Nav，利用多模态语言模型（MLLM）直接在俯视图上进行空间推理，而不是将视觉信息转换为语言描述，避免了在地图到语言转换过程中丢失的空间信息，从而充分利用了完整的空间信息。
自适应视觉提示生成（AVPG）：为了增强MLLM对俯视图的理解，引入了自适应视觉提示生成（AVPG）方法，动态地在地图上生成丰富的视觉提示，帮助MLLM更好地理解和推理环境的空间布局信息。
动态地图缩放（DMS）机制：为了支持局部区域的细粒度探索，设计了动态地图缩放（DMS）机制，允许在探索过程中动态调整地图的缩放比例，以便MLLM能够捕捉更多的空间线索并进行更精细的推理。
目标引导导航（TGN）机制：提出了目标引导导航（TGN）机制，通过预测目标对象的位置来指导当前的移动决策。这种方法模仿人类的行为，利用已知观察来推断未探索区域的目标位置，从而实现更灵活和高效的探索策略。

研究背景

研究问题

论文主要解决的问题是零样本目标导航（Zero-Shot Object Navigation, ZSON），即要求智能体在不熟悉的环境中导航以找到先前未见过的目标对象。

这种目标导向的探索依赖于对环境的空间信息的感知、理解和推理能力。

研究难点

当前基于大模型（LLMs）的方法在将视觉观测转换为语言描述并在语言空间中进行推理时，会丢失空间信息。
如何在零样本设置下充分利用LLMs的空间推理能力是一个关键难点。

相关工作

目标对象导航：
- 早期方法主要使用强化学习（RL）来训练策略，探索视觉表示、元学习和语义先验等来提高性能。
- 模块化方法利用感知模型构建情景地图，并基于此生成长期目标以指导局部策略。
- 为了克服封闭世界假设并实现零样本目标导航，一些研究利用CLIP的多模态对齐能力来实现跨领域的零样本导航。
- 近期方法通过提取语义信息并结合大模型（LLM）来确定下一个探索的前沿或路径点，但通常在地图到语言转换过程中丢失了空间布局信息。
使用MLLM进行空间推理：
- 最近的研究越来越关注开发MLLM的空间推理能力。例如，KAGI通过关键点推理生成粗略的机器人运动轨迹作为密集奖励监督。
- SCAFFOLD利用支架坐标促进视觉-语言协调。
- PIVOT通过迭代提示MLLM来进行广泛的具身任务。
- 在视觉-语言导航领域，AO-Planner提出视觉可用性提示以使MLLM从前视图图像中选择候选路径点。
- 然而，之前的工作主要集中在从自我中心视角探索MLLM的空间推理能力，而从俯视视角的研究仍然有限。论文的工作填补了这一空白，探索了MLLM在ZSON任务中的俯视空间推理潜力。

研究方法

这篇论文提出了TopV-Nav方法，用于解决零样本目标导航问题。

问题定义

ZSON任务要求智能体从连续环境中随机初始化位置开始，导航到用户指定的目标对象类别的一个实例。
智能体在每个时间步接收自中心RGB-D图像和其位姿，并采取低级动作（如前进、左转、右转等）。
任务成功是指智能体在距离阈值内停止且目标可见。

概述

智能体通过自中心的RGB-D图像和位姿来观察环境。
使用自适应视觉提示生成（AVPG）模块将自中心观察转换为顶视图地图。
动态地图缩放（DMS）模块根据当前地图查询MLLM进行空间推理，并预测缩放比例以支持局部精细探索。
目标引导导航（TGN）机制预测目标位置并指导移动位置的选择。
最后，使用快速行进法作为本地策略，生成一系列低级动作，使智能体逐步向目标位置移动。

自适应视觉提示生成

将自中心深度图像转换为3D点云，并将其投影到全局空间。
利用地面检测模型识别物体及其边界框，并将其投影到顶视图地图上。
使用不同的颜色和文本作为视觉提示来区分不同区域（如历史行走区域、可通行区域、障碍物区域、前沿和物体）。
采用DBSCAN算法生成关键区域的标记，帮助MLLM更好地理解地图。

动态地图缩放

动态调整地图的缩放比例，以支持局部精细探索。
查询MLLM预测缩放比例，并根据选择的比例对地图进行裁剪和重新生成视觉提示。

目标引导导航

设计目标引导导航机制，通过预测目标位置来指导决策过程。
MLLM根据房间布局推断目标的潜在位置，并将其转换为实际的可通行区域内的移动位置。
使用高斯概率分布计算每个位置的位置得分，并结合布局得分来预测最终决策位置。

本地策略

根据智能体的决策位置计算路径，并生成一系列低级动作。
在导航过程中，如果观察到目标类别的实例，智能体将直接导航到该实例；否则，继续根据MLLM的推理结果进行探索。

实验设置

数据集

在Matterport3D (MP3D) 和 Habitat-Matterport3D (HM3D) 数据集上进行实验。

MP3D包含11个高保真场景和2195个验证集剧集，有21个目标对象类别。
HM3D标准数据集分割包含2000个验证集剧集，分布在20个建筑中，有6个目标对象类别。
由于工作重点是零样本目标导航，所有样本均未用于训练。

评估指标

采用成功率（Success Rate, SR）和按路径长度加权的成功率（Success Weighted by Path Length, SPL）来评估目标对象导航性能。
SR表示成功的剧集比例，
SPL衡量导航效率。

实现细节

设置智能体的最大导航步数为500，旋转角度为30度，前进距离为0.25米。

构建的顶视图地图为800 x 800像素，分辨率为0.05米。设置了一些超参数，如选择目标相关物体的置信度阈值和聚类半径等。

结果与分析

与现有方法的比较：
- 比较了TopV-Nav与其他最先进的目标导航方法在MP3D和HM3D基准数据集上的表现。
- 主要与ESC和VoroNav进行了比较，分别代表前沿探索方法和路径点探索方法。
- 结果显示，TopV-Nav在MP3D和HM3D上的成功率SR和SPL均有显著提升。
- 在MP3D的验证集上，SR提高了3.2%，SPL提高了1.9%。在HM3D基准上，SR从42.0%提高到45.9%，SPL从26.0%提高到28.0%。
消融研究（Ablation Studies）：

通过消融实验分析了每个模块的贡献。实验结果表明，自适应视觉提示生成（AVPG）、动态地图缩放（DMS）和目标引导导航（TGN）模块均有效提升了导航性能。
AVPG显著提高了MLLM的空间推理能力，SR提高了40.5%，SPL提高了22.7%。
DMS机制进一步提高了导航效率，SR提高了2.5%，SPL提高了1.9%。
TGN模块显著提升了SR和SPL，分别从42%提高到43.5%，23.6%提高到24.7%。
进一步研究了视觉提示组件和地图缩放比例对导航性能的影响，发现增加视觉提示和地图缩放比例可以进一步提高性能。

定性分析（Qualitative Analysis）：
- 可视化了导航过程和MLLM的空间推理，提供了更直观的视角。
- 通过示例展示了MLLM如何利用顶视图地图进行布局推理和目标位置预测，从而指导智能体的导航行为。

总结

论文提出了TopV-Nav，通过直接在全景图上使用LLMs进行推理，解锁了LLMs在全景视角下的空间推理潜力。

提出的自适应视觉提示生成、动态地图缩放和目标引导导航机制显著提高了零样本目标导航的性能。

实验结果表明，TopV-Nav在MP3D和HM3D基准上均取得了显著的性能提升，展示了其在复杂环境中的导航能力。

http://www.ppmy.cn/embedded/158183.html

相关文章

微信小程序压缩图片

微信小程序压缩图片

由于wx.compressImage(Object object) iOS 仅支持压缩 JPG 格式图片。所以我们需要做一下特殊的处理： 1.获取文件，判断文件是否大于设定的大小 2.如果大于则使用canvas进行绘制，并生成新的图片路径 3.上传图片 async chooseImage() {let …

阅读更多...

使用vscode + Roo Code (prev. Roo Cline)+DeepSeek-R1使用一句话需求做了个实验

使用vscode + Roo Code (prev. Roo Cline)+DeepSeek-R1使用一句话需求做了个实验

摘要使用vscode、Roo Code和deepseek-reasoner进行了一个实验，尝试使用一句话需求来生成小红书封面图片。工具根据需求提供了详细的架构方案，包括技术栈选择、核心模块划分、目录结构建议等。然后，工具自动化地完成了开发和测试，…

阅读更多...

使用scikit-learn实现线性回归对自定义数据集进行拟合

使用scikit-learn实现线性回归对自定义数据集进行拟合

1. 引入必要的库首先，需要引入必要的库。scikit-learn提供了强大的机器学习工具，pandas和numpy则用于数据处理，matplotlib用于结果的可视化。 import pandas as pd import numpy as np from sklearn.model_selection import train_test_sp…

阅读更多...

【蓝桥杯嵌入式入门与进阶】2.与开发板之间破冰：初始开发板和原理图2

【蓝桥杯嵌入式入门与进阶】2.与开发板之间破冰：初始开发板和原理图2

个人主页：Icomi 专栏地址：蓝桥杯嵌入式组入门与进阶大家好，我是一颗米，本篇专栏旨在帮助大家从0开始入门蓝桥杯并且进阶，若对本系列文章感兴趣，欢迎订阅我的专栏，我将持续更新，祝你…

阅读更多...

SQL注入漏洞之高阶手法宽字节注入以及编码解释以及堆叠注入原理说明

SQL注入漏洞之高阶手法宽字节注入以及编码解释以及堆叠注入原理说明

目录宽字节注入编码区分原理函数转译符号解释注意绕过方式详解堆叠【Stack】注入攻击注入语句宽字节注入在说宽字节注入之前我们需要知道编码相关的知识点，这个有助于搞定什么是宽字节注入分清楚是ascii码是什么宽字节注入代码里面加入了adds…

阅读更多...

【2025最新计算机毕业设计】基于SpringBoot+Vue爬虫技术的咖啡与茶饮料文化平台（高质量源码，可定制，提供文档，免费部署到本地）

【2025最新计算机毕业设计】基于SpringBoot+Vue爬虫技术的咖啡与茶饮料文化平台（高质量源码，可定制，提供文档，免费部署到本地）

作者简介：✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌ 主要内容：🌟Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能…

阅读更多...

单链表专题（上）

单链表专题（上）

链表的定义与创建线性表： 1. 物理结构上不一定是线性的 2. 逻辑结构上一定是线性的链表是一种物理存储结构上非连续，非顺序的存储结构链表也是线性表的一种，但是在物理结构上不是连续的链表是由一个一个的节点组成，需要数…

阅读更多...

【C语言----数组详解】

【C语言----数组详解】

目录 ---------------------------------------begin--------------------------------------- 一、什么是数组二、数组的声明和初始化 1. 数组的声明 2. 数组的初始化三、数组元素的访问四、数组的遍历五、数组的应用六、多维数组七、总结 --------------------…

阅读更多...

最新文章