探索具身多模态大模型：开发、数据集和未来方向（下）

25年2月来自广东人工智能和数字经济实验室、深圳大学、巴黎理工学院和巴黎高等师范学院、中山大学的论文“Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions”。

近年来，具身多模态大模型 (EMLM) 因其在复杂的现实环境中弥合感知、认知和行动之间差距的潜力而备受关注。这篇全面的评论探讨此类模型的发展，包括大语言模型 (LLM)、大型视觉模型 (LVM) 和其他模型，同时也研究其他新兴架构。讨论 EMLM 的发展，重点关注体现感知、导航、交互和模拟。此外，该评论还对用于训练和评估这些模型的数据集进行详细分析，强调多样化、高质量数据对于有效学习的重要性。本文还确定 EMLM 面临的关键挑战，包括可扩展性、泛化和实时决策问题。最后，概述未来的方向，强调整合多模态感知、推理和动作以推动日益自主的系统发展。

。。。。。。继续。。。。。。

具身数据集收集方法

收集具身智能相关的数据集主要有两种方法：一种是使用具有物理身体的智体在现实世界中收集数据，另一种是通过模拟器收集数据集。
该数据集与 [187, 224] 中的数据集类似，是在现实环境中使用各种传感器收集的，包括 RGB 摄像头、深度摄像头、IMU、激光雷达、压力传感器、声音传感器等。然而，在数据收集过程中，可能会出现视野遮挡或操作细节记录不完整等问题。为了应对这些挑战，DexCap [225] 利用 SLAM 来跟踪手部动作。

另一种类型的数据集是使用模拟器收集的，例如 Unity 和 Gazebo。这种方法能够快速生成大量多模态数据（例如图像、深度图、传感器数据等），同时提供对环境和任务变量的控制，从而促进模型训练。

具身感知和交互数据集

最近的几个数据集在推动机器人具身智能的发展方面发挥了关键作用。

值得注意的是，谷歌团队与 20 多个组织和研究机构合作发布的 Open X-Embodiment 数据集 [187] 提供了大规模多模态资源。它包括来自 22 种机器人的数据，捕获 100 万个场景、500 多种技能和 150,000 个任务的 RGB 图像、端点运动轨迹和语言命令。它包含 60 个数据集，其中一些如表所示。

请添加图片描述

具身智能领域很大程度上依赖于捕捉各种机器人操作、环境和传感模式的多样化数据集。这些数据集通常可以根据其数据收集方法进行分类，例如真实世界数据、模拟数据或两者的结合，其中一些数据集包含多模态信息。

总之，这些多样化的数据集，从现实世界到模拟环境，提供丰富的多模式数据，促进具身智能、机器人操控和人机交互的进步。

具身导航数据集

具身导航数据集旨在增强机器人基于视觉-语言组合指令在物理或模拟环境中精确导航的能力。这是通过提供长而复杂的路径和指令、真实世界数据、多样化的室内和室外场景、对训练大型高容量模型的支持以及详细的中间产品（例如 3D 场景重建、相对深度估计、目标标签和定位信息）来实现的。这些数据集有效地扩展了视觉-语言导航的应用场景，并为解决实际的下游应用问题提供了强有力的数据支持。

尽管 EMLM 的发展势头迅猛，但仍面临诸多挑战。然而，它也为未来的探索提供有价值的途径。

技术挑战

跨模态对齐：尽管多模态模型取得了重大进展，但实现不同模态（如视觉、语言和运动）之间的精确高效对齐仍然是一项基本挑战。开发实时稳健地融合和对齐这些模态的方法（特别是针对具体任务）是一个关键的研究重点。例如，当前的视觉-语言模型 ReKep [66] 和视觉-音频模型 SoundSpaces [49] 都依赖于来自不同模态数据的有效对齐。如果没有适当的对齐，响应的准确性和效率可能会降低。

计算资源和效率：EMLM 需要大量的计算资源和存储空间。一个关键挑战是提高计算效率、最大限度地降低能耗、优化推理速度，同时保持高性能。模型压缩、分布式计算和硬件加速方面的进步对于解决这些挑战至关重要。目前，大多数模型都具有大量参数，训练和推理过程都依赖于高性能 GPU，这既耗时又昂贵。然而，Openvla [80] 引入一种方法，让一个只有 70 亿个参数的模型可以执行广泛的任务。当输入包含视觉和语言数据时，这种效率是可以实现的。然而，当加入激光雷达、音频、压力、GPS 和其他多模态输入等其他模态来处理更复杂的任务时，模型大小、响应时间和相关成本往往会显著增加。

跨域泛化：虽然多模态模型在特定基准或特定领域内表现出令人印象深刻的性能，但它们在不同环境或任务中泛化的能力仍然有限。研究人员必须探索方法来增强这些模型在实际应用中的可迁移性和适应性。例如，目前具身大模型通常分为感知模型（如 GPT 系列）、交互模型（如 3D-VLA [179]）和导航模型（如 SG-Nav [114]）。这些模型可以解决的任务范围相对固定，其泛化能力仍然不是最优的。

处理时间和顺序信息：具身模型必须管理动态、实时数据和顺序交互，在处理连续动作、环境事件以及感知、推理和运动之间的时间依赖关系方面提出重大挑战。在交互领域，模型通常分为短期动作策略（如 R3M [143]）和长期动作策略（如 Palm-e [47]）。然而，在导航领域，缺乏为长期连续导航而设计的模型。

数据和注释问题

数据集的多样性和质量：现有的具身多模态任务数据集在多样性、规模和质量方面往往受到限制。缺乏能够捕捉动态环境中复杂多模态交互的高质量真实世界数据集，阻碍有效的模型训练。未来的努力应优先考虑开发更大、更多样化、注释更好的数据集，以增强多模态模型的鲁棒性和泛化能力。虽然目前的大型数据集（如 Open X-Embodiment 数据集 [187] 和 ARIO 数据集 [224]）取得显著进展，但它们主要侧重于感知和交互任务，例如家务和厨房操作。仅靠这些任务不足以支持具身智能智体所需的全部功能。此外，这些数据集中的大多数传感器都依赖于摄像头，这限制现实世界的感知。为了解决这个问题，必须集成额外的多模态传感器，例如激光雷达、声音传感器、雷达、力传感器和 GPS，以扩大可用数据的广度。

就数据集而言，必须整合现实世界的动态数据。这在具体任务中尤其重要，例如机器人技术和自主系统，由于物理环境的不可预测性，从现实环境中获取数据具有挑战性。为了确保这些模型在现实场景中的实际适用性，必须对准确反映动态非静态环境的数据进行训练。