无限世界中的具身导航与交互！InfiniteWorld：通用视觉语言机器人交互的统一仿真框架

作者：Pengzhen Ren, Min Li, Zhen Luo, Xinshuai Song, Ziwei Chen, Weijia Liufu, Yixuan Yang, Hao Zheng, Rongtao Xu, Zitong Huang, Tongsheng Ding, Luyang Xie, Kaidong Zhang, Changfei Fu, Yang Liu, Liang Lin, Feng Zheng, Xiaodan Liang
单位：鹏城实验室，中山大学，南方科技大学，穆罕默德·本·扎耶德人工智能大学
论文链接：: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction (https://arxiv.org/pdf/2412.05789)
代码链接：https://github.com/pzhren/InfiniteWorld

统一的和可扩展的模拟框架：论文构建了一个统一的可扩展仿真框架InfiniteWorld，提供了统一的平台来支持大规模场景和对象资产的生成，大大缓解了社区缺乏高质量具身资产的困境。
智能点云自动标注框架：构建了一个完整的基于网络的智能点云自动标注框架 Annot8-3D，支持分布式协作、AI 辅助和可选的人机循环功能，为复杂的机器人交互提供了强有力的支持。
系统化的基准测试：设计了机器人交互基准测试，包括场景图协作探索和开放世界社交移动操作，提供了一个全面和系统的评估，用于评估具身智能体在感知、规划、执行和通信方面的能力。
生成驱动的 3D 资产构建：引入了生成驱动的 3D 资产构建方法，包括语言驱动的 3D 场景生成、可控关节对象生成和图像到 3D 对象重建，支持场景和对象资产的无限扩展。

具身智能（Embodied AI）的目标是让机器人在真实环境中进行自主学习和交互。这一领域的研究需要机器人具备在开放环境中自由探索、理解和操作的能力。

然而，实现这一目标面临着多个挑战，包括物理模拟的精确性、用户友好的界面设计、高度真实和多样的三维资产，以及综合的机器人交互任务设计。

为了构建一个大规模、交互式、现实的环境，模拟器支持生成驱动的3D资产重建。

为了提高场景重建的质量，模拟器引入了一种改进的Real2Sim方法，称为Depth-Prior-Constrained Real2Sim。该方法包括：

为了提高3D点云标注的效率和准确性，模拟器提出了Annot8-3D自动标注框架。该框架结合了AI辅助自动化和人类在环路的细化，具体来说：

为了实现不同模拟平台之间的资产互操作性，模拟器提供了一个统一的3D资产接口。

基准1：目标机动导航（Object Loco-Navigation）
- 评估机器人根据语言指令导航到目标对象的能力。
- 任务成功标准是目标对象出现在机器人的视野内。
基准2: 机动操作（Loco-Manipulation）
- 在Object Loco-Navigation的基础上，评估机器人在导航、操作和规划方面的能力。
- 任务要求机器人理解自然语言指令，定位正确目标对象，并将其移动到目标位置并放置。
基准3: 场景图协作构建（SGCE）
- 评估多机器人协作构建场景图的能力。
- 通过共享信息和合并视图来提高场景图的构建效率和信息丰富度。
基准4: 开放世界社交移动操作（OWSMM）
- 层次交互模拟具有层次知识结构的具身AI交互。
- 平行交互模拟所有智能体具有平等知识获取能力的交互。

LLM-Based Instruction Following: 使用GPT-4o的LLM-Based Instruction Following方法表现出色，成功率（SR）达到90.82%，成功加权路径长度（SPL）也达到90.82%。失败案例主要是由于障碍物阻挡导致机器人未能在60度水平视野内看到目标对象。
VLM Zero-Shot: 所有VLM模型的表现较低，表明在zero-shot设置下，VLM仍难以仅通过直接观察和动作生成来实现目标。