具身智能体空间感知基础!ROBOSPATIAL:评测并增强2D和3D视觉语言模型空间理解水平

server/2025/2/2 0:05:11/

  • 作者:Chan Hee Song, Valts Blukis,Jonathan Tremblay, Stephen Tyree, Yu Su, Stan Birchfield

  • 单位:俄亥俄州立大学,NVIDIA

  • 论文标题:ROBOSPATIAL: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics

  • 论文链接:https://arxiv.org/pdf/2411.16537

主要贡献

  • 论文介绍了ROBOSPATIAL数据集ROBOSPATIAL-Home基准,包括图像和3D扫描,并配有关于空间问题的问答对,包括多个参考框架、物体间空间关系、物体与空间的关系以及物体兼容性。

  • 通过在ROBOSPATIAL数据集上训练视觉语言模型(VLMs),显著增强了这些模型的空间推理能力。实验结果表明,这些模型在自然语言指定的机器人操作任务和室内场景问答任务中表现优于先前的VLMs。

  • 通过机器人实验展示了ROBOSPATIAL的实际应用效果。实验结果表明,ROBOSPATIAL训练的模型在机器人操作任务中表现出色,能够理解和应用空间推理能力。

研究背景

研究问题

现有的视觉语言模型(VLMs)在处理涉及物体间细微空间关系的问题时表现不佳,例如描述物体在另一物体上的位置或确定在特定条件下放置物品的最佳位置。

论文主要解决的问题是视觉语言模型在机器人应用中的空间理解能力不足。

研究难点

该问题的研究难点包括:

  • 现有数据集缺乏对参考系理解的捕捉,无法有效处理从第一人称视角、物体视角或世界视角的空间关系;

  • 现有VLMs在处理动态环境中的空间关系时表现有限。

相关工作

  • VLMs在机器人中的应用

    • VLMs已成为机器人系统中至关重要的工具,使系统能够解释和执行复杂的视觉和文本信息。它们通过结合视觉感知和语言理解,促进了更直观的人机交互,并增强了自主决策能力。

    • 近期的进展展示了VLMs在各种机器人应用中的潜力,例如通过视觉-语言动作模型(VLAs)来解释和执行复杂指令,以及使用GPT-4v进行高层次任务规划等。

  • 空间理解的挑战

    • 尽管VLMs在理解和生成语言方面表现出色,但在动态环境中理解和推理空间关系仍然存在限制。这种能力对于机器人导航和操作至关重要。

    • 现有的工作主要集中在模拟环境或通用图像上,缺乏对机器人应用中所需的实际空间关系的关注,如空间兼容性和上下文。

  • 空间理解的研究

    • 空间理解一直是视觉问答任务的一部分,许多基准和方法已经被提出。然而,这些方法通常存在局限性,例如专注于模拟环境、难以评估、依赖完整的3D扫描或使用可能缺乏足够准确性的LLM生成的数据。

    • 论文扩展了空间理解的应用范围,将其应用于机器人特定的上下文中,并强调了对机器人工作流(如任务规划和验证)的直接应用。

  • ROBOSPATIAL的目标

    • 论文旨在通过引入大规模的2D/3D预训练数据集和自动化数据标注流程,降低探索针对机器人应用的空间理解的门槛。

    • 作者展示了如何利用ROBOSPATIAL数据集来教授视觉语言模型进行空间推理,并在领域内和领域外的空间推理数据集上进行测试。

研究方法

  • 空间关系选择
    • 数据集围绕三个核心空间关系组织:对象配置(Object Configuration)、对象上下文(Object Context)和对象兼容性(Object Compatibility)。

    • 这些关系旨在解决机器人任务中空间推理的基本方面,帮助机器人理解对象的相对位置、评估对象与其周围空间的关系,以及判断对象是否可以在给定空间中共存或互动。

  • 数据集生成

    • 数据生成过程的目标是通过使用精心构建的启发式方法,以最小的人工干预生成高精度的空间关系数据集。

    • 输入数据集包含RGB视图、相机姿态和对象标注(文本标签和有向3D边界框),输出数据集包含图像、问题、答案和参考帧标签。

    • 数据生成过程分为两个阶段:空间关系提取和问答生成。

  • 空间关系提取

    • 在空间关系提取阶段,分析数据集以发现对象之间或自由空间中的空间关系。

    • 每个空间关系由图像、锚对象、目标对象或目标自由空间点、大小测量、空间关系介词和参考帧标签组成。

    • 使用有向3D边界框标注自动生成空间关系。通过分析3D边界框的方向和位置信息,自动提取对象之间的空间关系。

  • 问答生成

    • 基于生成的关系,构建三种类型的问答对:空间配置、空间上下文和空间兼容性。

    • 为了确保模型通过视觉而非语言进行推理,问题和答案采用模板化结构,避免歧义。

    • 通过生成平衡的数据集,避免模型偏差,并使用2D边界框创建辅助的对象指代数据集,以教授模型识别对象。

实验设置

  • 实现细节

    • 实验将数据生成过程应用于三个场景数据集和两个桌面数据集,包括ScanNet、Matterport3D、3RScan、HOPE和GraspNet-1B。

    • 这些数据集提供了多样化的室内场景和桌面环境,覆盖了大物体和小物体的导航和操作。

    • 选择了多种2D和3D视觉语言模型(VLMs)进行评估,包括VILA、LLaVA-NeXT、SpaceLLaVA、RoboPoint、3D-LLM、LEO、Molmo和GPT-4o等模型。

  • 空间理解评估

    • 通过回答测试集中的3000个问题(每种空间关系1000个问题)来评估模型。

    • 这些问题包括二元(是/否)问题和需要数值响应的问题。评估指标包括正确回答的成功率和数值答案的准确性。

  • 跨数据集泛化评估

    • 通过在不同场景类型(室内和桌面)上进行训练和测试,评估模型的泛化能力。

  • 领域外评估

    • 在ROBOSPATIAL-Home和Blink-Spatial基准上评估模型的领域外迁移能力。

    • ROBOSPATIAL-Home是一个手动标注的室内场景数据集,用于测试模型在真实生活杂乱场景中的泛化能力。

    • Blink-Spatial是一个视觉推理基准,用于评估模型在未见过的空间关系上的泛化能力。

结果与分析

  • 模型性能提升
    • 经过ROBOSPATIAL训练的模型在空间推理任务中表现出显著的性能提升。

    • 与未经过ROBOSPATIAL训练的基线模型相比,训练后的模型在各项任务中均取得了更高的成功率。

    • 例如,VILA模型在室内场景的配置、上下文和兼容性任务上的成功率分别从54.7%、18.3%和56.3%提高到71.4%、45.9%和77.2%。

  • 跨数据集泛化能力
    • 评估了模型在不同场景类型(如室内和桌面)之间的泛化能力。

    • 结果显示,经过ROBOSPATIAL训练的模型在未见过的场景类型上也能保持良好的性能。

    • 例如,当在室内场景上训练并在桌面场景上测试时,RoboPoint模型的成功率从38.7%提高到48.9%。

  • 领域外评估

    • 在ROBOSPATIAL-Home和Blink-Spatial基准上评估模型的领域外迁移能力。

    • 结果显示,ROBOSPATIAL训练的模型在这些基准上也表现出色。

    • 例如,在Blink-Spatial基准上,经过ROBOSPATIAL训练的SpaceLLaVA模型在多项任务上的成功率显著提高。

  • 对细微视角的理解

    • 模型在理解细微视角方面表现出色。经过ROBOSPATIAL训练的模型能够更好地推断出问题中的参考框架。

    • 例如,在ROBOSPATIAL-Home数据集上,模型能够正确理解“在床头柜前面”的问题。

  • 3D VLMs的表现

    • 3D VLMs在处理空间关系方面显示出一定的优势,尤其是在涉及深度信息的任务中。

    • 例如,LEO模型在室内场景的配置、上下文和兼容性任务上的成功率分别从56.1%、11.3%和58.3%提高到80.2%、56.7%和82.5%。

真实机器人实验

  • 实验设计
    • 设计了一系列需要空间推理和物体操作的机器人任务。实验使用了多种形状、颜色和日常物品,目的是使对象识别尽可能简单且无歧义。

    • 对于每个场景配置,实验包括两个是/否问题,随后是一个拾取和放置问题。拾取和放置被视为独立的任务进行评估。

    • 使用Kinova Jaco机器人和ZED2相机进行RGB-D感知。机器人系统使用cuRobo进行无碰撞运动规划。

  • 模型评估
    • 评估了多个VLMs的表现,包括LLaVA-NeXT、RoboPoint、Molmo和GPT-4o。实验比较了经过ROBOSPATIAL训练的模型与未经过训练的基线模型。

    • 结果显示,经过ROBOSPATIAL训练的模型在机器人操作任务中表现出色,能够更好地理解和应用空间推理能力。

  • 实验结果
    • 经过ROBOSPATIAL训练的模型在大多数情况下表现优于基线模型。例如,在“放在小马前面”任务中,只有经过ROBOSPATIAL训练的模型能够正确预测位置。

    • 在“放在橙汁盒前面”任务中,经过训练的模型能够识别出相对于对象大小的适当距离来放置物体,而未经过训练的RoboPoint模型的预测点距离太远,难以正确放置物体。

总结

论文介绍了ROBOSPATIAL和ROBOSPATIAL-Home,一个大规模的空间理解训练和评估数据集,专为机器人应用设计。

实验结果表明,ROBOSPATIAL训练的模型在空间理解方面表现优异,能够泛化到未见过的空间关系,并在真实机器人实验中展现出实际应用能力。


http://www.ppmy.cn/server/164197.html

相关文章

MySQL 插入数据

MySQL 插入数据 引言 在数据库管理系统中,MySQL 是一款广泛使用的开源关系型数据库管理系统。数据插入是数据库操作的基础之一,它涉及将数据添加到数据库的表中。本文将详细介绍 MySQL 中插入数据的方法,包括基本的插入语法、多行插入、以及…

YOLOv8改进,YOLOv8检测头融合DynamicHead,并添加小目标检测层(四头检测),适合目标检测、分割等,全网独发

摘要 作者提出一种新的检测头,称为“动态头”,旨在将尺度感知、空间感知和任务感知统一在一起。如果我们将骨干网络的输出(即检测头的输入)视为一个三维张量,其维度为级别 空间 通道,这样的统一检测头可以看作是一个注意力学习问题,直观的解决方案是对该张量进行全自…

SSM开发(九) mybatis多表查询(举例说明)

目录 一、背景 二、一对一查询 三、一对多查询 一、背景 用户表和订单表的关系为,一个用户有多个订单,一个订单只从属于一个用户 mysql表设计: 二、一对一查询 一对一查询的需求:查询一个订单,与此同时查询出该订单所属的用户 实体: @Data public class Order {pr…

使用numpy自定义数据集 使用tensorflow框架实现逻辑回归并保存模型,然后保存模型后再加载模型进行预

1. 引言 逻辑回归(Logistic Regression)是一种常见的分类算法,广泛应用于二分类问题。在本篇博客中,我们将使用numpy生成一个简单的自定义数据集,并使用TensorFlow框架构建和训练逻辑回归模型。训练完成后&#xff0c…

磁感应编码器实现原理和C语言实现

目录 概述 1 核心物理原理 2 硬件结构设计 2.1 磁栅组件 2.2 传感器阵列 3 信号处理流程 4 关键技术突破 5 典型应用对比 6 实际应用案例 7 C语言的算法实现 7.1 核心实现原理 7.1.1 磁场空间分布建模 7.1.2 正交信号生成 7.2 完整C语言实现代码 7.3 应用层实现…

LangChain教程 - RAG - PDF解析

在现代人工智能和自然语言处理(NLP)应用中,处理PDF文档是一项常见且重要的任务。由于PDF格式的复杂性,包含文本、图像、表格等多种内容结构,高效、准确地解析PDF需要强大的工具支持。LangChain提供了一套完善的PDF加载…

leetcode 2300. 咒语和药水的成功对数

题目如下 数据范围 示例 注意到n和m的长度最长达到10的5次方所以时间复杂度为n方的必然超时。 因为题目要求我们返回每个位置的spell对应的有效对数所以我们只需要找到第一个有效的药水就行,这里可以先对potions排序随后使用二分查找把时间复杂度压到nlogn就不会…

C++学习第五天

创作过程中难免有不足,若您发现本文内容有误,恳请不吝赐教。 提示:以下是本篇文章正文内容,下面案例可供参考 一、构造函数 问题1 关于编译器生成的默认成员函数,很多童鞋会有疑惑:不实现构造函数的情况下…