具身智能体空间感知基础！ROBOSPATIAL：评测并增强2D和3D视觉语言模型空间理解水平

作者：Chan Hee Song, Valts Blukis,Jonathan Tremblay, Stephen Tyree, Yu Su, Stan Birchfield
单位：俄亥俄州立大学，NVIDIA
论文标题：ROBOSPATIAL: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics
论文链接：https://arxiv.org/pdf/2411.16537

论文介绍了ROBOSPATIAL数据集和ROBOSPATIAL-Home基准，包括图像和3D扫描，并配有关于空间问题的问答对，包括多个参考框架、物体间空间关系、物体与空间的关系以及物体兼容性。
通过在ROBOSPATIAL数据集上训练视觉语言模型（VLMs），显著增强了这些模型的空间推理能力。实验结果表明，这些模型在自然语言指定的机器人操作任务和室内场景问答任务中表现优于先前的VLMs。
通过机器人实验展示了ROBOSPATIAL的实际应用效果。实验结果表明，ROBOSPATIAL训练的模型在机器人操作任务中表现出色，能够理解和应用空间推理能力。

现有的视觉语言模型（VLMs）在处理涉及物体间细微空间关系的问题时表现不佳，例如描述物体在另一物体上的位置或确定在特定条件下放置物品的最佳位置。

论文主要解决的问题是视觉语言模型在机器人应用中的空间理解能力不足。

该问题的研究难点包括：

空间关系选择：
- 数据集围绕三个核心空间关系组织：对象配置（Object Configuration）、对象上下文（Object Context）和对象兼容性（Object Compatibility）。
- 这些关系旨在解决机器人任务中空间推理的基本方面，帮助机器人理解对象的相对位置、评估对象与其周围空间的关系，以及判断对象是否可以在给定空间中共存或互动。

数据集生成：
- 数据生成过程的目标是通过使用精心构建的启发式方法，以最小的人工干预生成高精度的空间关系数据集。
- 输入数据集包含RGB视图、相机姿态和对象标注（文本标签和有向3D边界框），输出数据集包含图像、问题、答案和参考帧标签。
- 数据生成过程分为两个阶段：空间关系提取和问答生成。
空间关系提取：
- 在空间关系提取阶段，分析数据集以发现对象之间或自由空间中的空间关系。
- 每个空间关系由图像、锚对象、目标对象或目标自由空间点、大小测量、空间关系介词和参考帧标签组成。
- 使用有向3D边界框标注自动生成空间关系。通过分析3D边界框的方向和位置信息，自动提取对象之间的空间关系。
问答生成：
- 基于生成的关系，构建三种类型的问答对：空间配置、空间上下文和空间兼容性。
- 为了确保模型通过视觉而非语言进行推理，问题和答案采用模板化结构，避免歧义。
- 通过生成平衡的数据集，避免模型偏差，并使用2D边界框创建辅助的对象指代数据集，以教授模型识别对象。

实现细节：
- 实验将数据生成过程应用于三个场景数据集和两个桌面数据集，包括ScanNet、Matterport3D、3RScan、HOPE和GraspNet-1B。
- 这些数据集提供了多样化的室内场景和桌面环境，覆盖了大物体和小物体的导航和操作。
- 选择了多种2D和3D视觉语言模型（VLMs）进行评估，包括VILA、LLaVA-NeXT、SpaceLLaVA、RoboPoint、3D-LLM、LEO、Molmo和GPT-4o等模型。
空间理解评估：
- 通过回答测试集中的3000个问题（每种空间关系1000个问题）来评估模型。
- 这些问题包括二元（是/否）问题和需要数值响应的问题。评估指标包括正确回答的成功率和数值答案的准确性。
跨数据集泛化评估：
- 通过在不同场景类型（室内和桌面）上进行训练和测试，评估模型的泛化能力。
领域外评估：
- 在ROBOSPATIAL-Home和Blink-Spatial基准上评估模型的领域外迁移能力。
- ROBOSPATIAL-Home是一个手动标注的室内场景数据集，用于测试模型在真实生活杂乱场景中的泛化能力。
- Blink-Spatial是一个视觉推理基准，用于评估模型在未见过的空间关系上的泛化能力。

模型性能提升：
- 经过ROBOSPATIAL训练的模型在空间推理任务中表现出显著的性能提升。
- 与未经过ROBOSPATIAL训练的基线模型相比，训练后的模型在各项任务中均取得了更高的成功率。
- 例如，VILA模型在室内场景的配置、上下文和兼容性任务上的成功率分别从54.7%、18.3%和56.3%提高到71.4%、45.9%和77.2%。

跨数据集泛化能力：
- 评估了模型在不同场景类型（如室内和桌面）之间的泛化能力。
- 结果显示，经过ROBOSPATIAL训练的模型在未见过的场景类型上也能保持良好的性能。
- 例如，当在室内场景上训练并在桌面场景上测试时，RoboPoint模型的成功率从38.7%提高到48.9%。

领域外评估：
- 在ROBOSPATIAL-Home和Blink-Spatial基准上评估模型的领域外迁移能力。
- 结果显示，ROBOSPATIAL训练的模型在这些基准上也表现出色。
- 例如，在Blink-Spatial基准上，经过ROBOSPATIAL训练的SpaceLLaVA模型在多项任务上的成功率显著提高。
对细微视角的理解：
- 模型在理解细微视角方面表现出色。经过ROBOSPATIAL训练的模型能够更好地推断出问题中的参考框架。
- 例如，在ROBOSPATIAL-Home数据集上，模型能够正确理解“在床头柜前面”的问题。
3D VLMs的表现：
- 3D VLMs在处理空间关系方面显示出一定的优势，尤其是在涉及深度信息的任务中。
- 例如，LEO模型在室内场景的配置、上下文和兼容性任务上的成功率分别从56.1%、11.3%和58.3%提高到80.2%、56.7%和82.5%。

实验设计：
- 设计了一系列需要空间推理和物体操作的机器人任务。实验使用了多种形状、颜色和日常物品，目的是使对象识别尽可能简单且无歧义。
- 对于每个场景配置，实验包括两个是/否问题，随后是一个拾取和放置问题。拾取和放置被视为独立的任务进行评估。
- 使用Kinova Jaco机器人和ZED2相机进行RGB-D感知。机器人系统使用cuRobo进行无碰撞运动规划。

模型评估：
- 评估了多个VLMs的表现，包括LLaVA-NeXT、RoboPoint、Molmo和GPT-4o。实验比较了经过ROBOSPATIAL训练的模型与未经过训练的基线模型。
- 结果显示，经过ROBOSPATIAL训练的模型在机器人操作任务中表现出色，能够更好地理解和应用空间推理能力。

实验结果：
- 经过ROBOSPATIAL训练的模型在大多数情况下表现优于基线模型。例如，在“放在小马前面”任务中，只有经过ROBOSPATIAL训练的模型能够正确预测位置。
- 在“放在橙汁盒前面”任务中，经过训练的模型能够识别出相对于对象大小的适当距离来放置物体，而未经过训练的RoboPoint模型的预测点距离太远，难以正确放置物体。