无限世界中的具身导航与交互!InfiniteWorld:通用视觉语言机器人交互的统一仿真框架

news/2025/1/17 5:20:48/

  • 作者:Pengzhen Ren, Min Li, Zhen Luo, Xinshuai Song, Ziwei Chen, Weijia Liufu, Yixuan Yang, Hao Zheng, Rongtao Xu, Zitong Huang, Tongsheng Ding, Luyang Xie, Kaidong Zhang, Changfei Fu, Yang Liu, Liang Lin, Feng Zheng, Xiaodan Liang

  • 单位:鹏城实验室,中山大学,南方科技大学,穆罕默德·本·扎耶德人工智能大学

  • 论文链接:: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction (https://arxiv.org/pdf/2412.05789)

  • 代码链接:https://github.com/pzhren/InfiniteWorld

主要贡献

  1. 统一的和可扩展的模拟框架:论文构建了一个统一的可扩展仿真框架InfiniteWorld,提供了统一的平台来支持大规模场景和对象资产的生成,大大缓解了社区缺乏高质量具身资产的困境。

  2. 智能点云自动标注框架:构建了一个完整的基于网络的智能点云自动标注框架 Annot8-3D,支持分布式协作、AI 辅助和可选的人机循环功能,为复杂的机器人交互提供了强有力的支持。

  3. 系统化的基准测试:设计了机器人交互基准测试,包括场景图协作探索和开放世界社交移动操作,提供了一个全面和系统的评估,用于评估具身智能体在感知、规划、执行和通信方面的能力。

  4. 生成驱动的 3D 资产构建:引入了生成驱动的 3D 资产构建方法,包括语言驱动的 3D 场景生成、可控关节对象生成和图像到 3D 对象重建,支持场景和对象资产的无限扩展。

研究背景

研究问题

具身智能(Embodied AI)的目标是让机器人在真实环境中进行自主学习和交互。这一领域的研究需要机器人具备在开放环境中自由探索、理解和操作的能力。

然而,实现这一目标面临着多个挑战,包括物理模拟的精确性、用户友好的界面设计、高度真实和多样的三维资产,以及综合的机器人交互任务设计。

研究内容

  • 统一的模拟框架:构建统一的模拟平台,集成多种改进的具身资产重建方法,以支持大规模场景和对象资产的生成。

  • 生成驱动的三维资产构建:引入生成驱动的方法来创建高质量的三维场景和对象资产,包括语言驱动的场景生成、可控关节对象生成和图像到三维对象的重建。

  • 社会交互基准测试:设计新的基准测试任务,如场景图协作探索和开放世界社交移动操作,以更全面地评估机器人在环境理解、任务规划和执行以及智能交互方面的能力。

相关工作

具身智能中的模拟器研究

  • 物理模拟和任务设计的进展:许多模拟器被开发用于具身 AI 相关研究,主要集中在提高物理模拟的真实性和任务设计的多样性。例如,从抽象的物理交互到符号推理,再到在 3D 扫描场景中进行导航研究,以及实现现实的动作和环境交互等。

  • 多样化的任务设置:研究者们探索了具身 AI 任务设置的多样性,例如使用生成模型和大型语言模型(LLM)来生成任务,研究桌面操作的分层推理任务,以及模拟社会交互等。

模拟器中的交互研究

  • 社会交互的重要性:社会交互是具身 AI 中最接近人类的交互方式,也是人机交互研究的关键。例如,Habitat 3.0 提出了一个人类参与的模式,使用 LLM 模拟真实的人类行为来探索仿人机器人和智能体之间的协作。

  • NPC 设计:GRUtopia 设计了一个具有全局环境信息的NPC角色,用于人机交互,提供关键的交互信息以帮助机器人完成复杂任务。然而,这种设计在现实中缺乏具有全局环境信息的 NPC,限制了对真实社会交互的模拟。

场景和资源管理研究

  • 资产扩展的挑战:实现模拟平台资产的扩展是当前具身 AI 发展中最关键的问题之一,也是获取大规模机器人数据的基础。研究者们研究了各种具身资产生成技术,如基于 3D 高斯散射技术的现实场景虚拟化、大规模 3D 场景和对象生成,以及关节对象资产生成。

  • 统一接口的需求:这些技术通常缺乏统一和有效的接口,难以完全应用。InfiniteWorld 提出了一个基于 Isaac Sim 平台的统一接口,实现了三维资产的无限扩展。

无限世界模拟

生成驱动的3D资产重建

为了构建一个大规模、交互式、现实的环境,模拟器支持生成驱动的3D资产重建。

  • 利用语言作为驱动器进行大规模场景生成,特别是基于HOLODECK的技术,通过文本驱动创建具有准确语义、良好空间布局和交互性的3D环境。

  • 实现基于HOLODECK的用户定义场景资产的自动化扩展,支持自由替换不同纹理的地板和墙壁,从而轻松扩展场景数量。

  • 集成单图像到3D对象的资产重建和可控关节生成,以进一步丰富资产库。

Real2Sim

为了提高场景重建的质量,模拟器引入了一种改进的Real2Sim方法,称为Depth-Prior-Constrained Real2Sim。该方法包括:

  • 使用深度估计模型生成相机坐标系内的深度估计,并结合PGSR的方法计算平面法向量,提供额外的监督信号。

  • 设计了一个完整的后处理步骤,优化模型的轴对齐、噪声、表面连续性和大小等问题。

Annot8-3D自动标注框架

为了提高3D点云标注的效率和准确性,模拟器提出了Annot8-3D自动标注框架。该框架结合了AI辅助自动化和人类在环路的细化,具体来说:

  • 多阶段标流程,通过粗到细的标注逐步细化分割结果。

  • 初始粗分割阶段使用Point Transformer V3进行自动化粗粒度分割。

  • 交互式细化阶段允许人类审查员通过正负提示引导特定区域的精细调整。

  • 手动微调阶段提供手动分割工具进行精确调整。

统一的3D资产接口

为了实现不同模拟平台之间的资产互操作性,模拟器提供了一个统一的3D资产接口。

  • 将不同格式的资产统一为.usd格式,以便在Isaac Sim平台上统一调用。

  • 提供从不同格式到可用格式的转换脚本,支持物理模拟。

  • 集成了多种3D场景和对象资产,覆盖广泛的类别,包括软体和透明物体的模拟。

实验

基准任务

  • 基准1:目标机动导航(Object Loco-Navigation)

    • 评估机器人根据语言指令导航到目标对象的能力。

    • 任务成功标准是目标对象出现在机器人的视野内。

  • 基准2: 机动操作(Loco-Manipulation)

    • 在Object Loco-Navigation的基础上,评估机器人在导航、操作和规划方面的能力。

    • 任务要求机器人理解自然语言指令,定位正确目标对象,并将其移动到目标位置并放置。

  • 基准3: 场景图协作构建(SGCE)

    • 评估多机器人协作构建场景图的能力。

    • 通过共享信息和合并视图来提高场景图的构建效率和信息丰富度。

  • 基准4: 开放世界社交移动操作(OWSMM)

    • 层次交互模拟具有层次知识结构的具身AI交互。

    • 平行交互模拟所有智能体具有平等知识获取能力的交互。

设置

  • 使用Stretch机器人作为执行智能体进行所有实验。

  • 使用GPT-4o结合HSSD数据集的场景语义生成任务指令。

  • 提供多种接口以支持不同级别的任务,包括占用图、路径规划和操作设置。

基线模型

  • LLM-Based Instruction Following:基于大型语言模型(LLM)和提示工程分解自然语言指令。

  • VLM Zero-Shot:输入全局场景信息和当前观察,输出机器人应执行的动作。

  • Single Semantic Map:使用目标导向的语义探索方法进行2D语义映射。

  • Random:在机器人的动作空间中随机采样执行动作。

  • LLM-Based Planning:使用Co-NavGPT进行多智能体系统的目标规划。

  • LLM-Planner:使用LLM直接生成计划,减少对环境先验知识的依赖。

评估指标

  • 使用成功率(SR)、成功加权路径长度(SPL)和导航误差(NE)等指标评估导航任务。

  • 对于Loco-Manipulation,还包括操作成功率和精度。

  • 对于SGCE,使用语义探索率(SER)和最小均方根误差(MRMSE)。

  • 对于OWSMM,使用SR、SPL、最小路径(MPL)和最长路径(LPL)。

结果与分析

目标机动导航

  • LLM-Based Instruction Following: 使用GPT-4o的LLM-Based Instruction Following方法表现出色,成功率(SR)达到90.82%,成功加权路径长度(SPL)也达到90.82%。失败案例主要是由于障碍物阻挡导致机器人未能在60度水平视野内看到目标对象。

  • VLM Zero-Shot: 所有VLM模型的表现较低,表明在zero-shot设置下,VLM仍难以仅通过直接观察和动作生成来实现目标。

机动操作

  • LLM-Based Instruction Following: GPT-4o保持了最高性能,但由于更高的动作精度,Chat-GLM4在成功率上优于Qwen。

  • VLM Zero-Shot: VLM模型在移动和操作任务中面临挑战,不仅难以到达目标,而且很难确定是否可以抓取物体。

场景图协作构建

  • Co-NavGPT: 使用GPT-4的Co-NavGPT方法表现最佳,可能得益于Prompt设计的优势。

开放世界社交移动操作

  • Hierarchical Interaction: 使用VLM直接输出离散动作时,成功率(SR)为0。引入额外的动作原语后,进一步规划实验仍未能显著提高成功率。

  • Horizontal Interaction: 结果显示,由于任务构建中使用的语义信息过于粗糙,导致任务失败。

总结

论文提出了InfiniteWorld,一个基于NVIDIA Isaac Sim的统一且可扩展的模拟器,用于通用视觉-语言机器人交互。

InfiniteWorld提供了丰富的3D资产构建接口,支持场景和对象资产的无限扩展,并建立了全面的机器人交互基准,以综合评估具身智能体在感知、规划、执行和交互方面的能力。


http://www.ppmy.cn/news/1563801.html

相关文章

【初阶数据结构】序列系统重构:顺序表

文章目录 1.线性表2.顺序表2.1 概念及结构2.1.1 静态顺序表2.2.2 动态顺序表 2.2 接口实现2.2.1 顺序表打印2.2.2 顺序表初始化2.2.3 顺序表销毁2.2.4 顺序表容量检查2.2.5 顺序表尾插2.2.6 顺序表头插2.2.7 顺序表尾删2.2.8 顺序表头删2.2.9 顺序表在pos位置插入x2.2.10 顺序表…

卷积神经05-GAN对抗神经网络

卷积神经05-GAN对抗神经网络 使用Python3.9CUDA11.8Pytorch实现一个CNN优化版的对抗神经网络 简单的GAN图片生成 CNN优化后的图片生成 优化模型代码对比 0-核心逻辑脉络 1)Anacanda使用CUDAPytorch2)使用本地MNIST进行手写图片训练3)…

11-1.Android 项目结构 - androidTest 包与 test 包(单元测试与仪器化测试)

androidTest 包与 test 包 在 Android 项目中,androidTest 包与 test 包用于存放不同类型的测试代码的 1、测试类型 (1)androidTest 包 主要用于存放单元测试(Unit Tests)代码 单元测试是针对应用程序中的独立模块…

HarmonyOS NEXT应用开发边学边玩系列:从零实现一影视APP (五、电影详情页的设计实现)

在上一篇文章中,完成了电影列表页的开发。接下来,将进入电影详情页的设计实现阶段。这个页面将展示电影的详细信息,包括电影海报、评分、简介以及相关影人等。将使用 HarmonyOS 提供的常用组件,并结合第三方库 nutpi/axios 来实现…

代码随想录day24 | 贪心算法理论基础 leetcode 455.分发饼干 376.摆动序列 53. 最大子序和

贪心算法理论基础 贪心算法是一种在每一步选择中都做出当前看起来最优的选择,从而期望通过局部最优解得到全局最优解的算法。贪心算法的基本思想是:在解决问题时,尽量选择当前最好的选项,最终达到全局最优解. 分发饼干 题目&am…

如何禁用 PySpark 在运行时打印信息

我已经开始使用 PySpark。PySpark 的版本是3.5.4,它是通过 进行安装的pip。 这是我的代码: from pyspark.sql import SparkSession pyspark SparkSession.builder.master("local[8]").appName("test").getOrCreate() df pyspark…

音视频入门基础:RTP专题(3)——SDP简介

一、引言 会话描述协议(Session Description Protocol,简称SDP)描述了流媒体的初始化参数,包含音视频的编解码器、源地址和时间信息。SDP协议从不会被单独使用,而依赖于RTP和RTSP等协议。SDP也作为WebRTC的组件之一&a…

论文高级GPT指令推荐

一、科研选题与方向确认二、文献综述与整理 一、科研选题与方向确认 头脑风暴选题指令:Brainstorm potential research topics within [你的研究领域], focusing on areas with limited existing research and significant potential impact. For each topic, prov…