近年来,人工智能的发展让大语言模型(MLLM)变得越来越强大,它们可以理解和处理文字、图片、视频等多种信息,在很多领域都有很好的应用。然而,当这些模型需要理解 3D(立体)场景 时,仍然面临一些困难。
目前的MLLM主要是用 2D图片训练出来的,也就是说,它们更擅长识别 平面的信息,比如照片中的人和物体。但是,现实世界是三维的(3D),仅靠2D图片训练的模型很难准确理解物体的立体关系。
例如,如果只给一个普通的AI模型一张照片,它可能能识别出一辆汽车,但无法准确判断这辆汽车离自己有多远,或者它的大小、角度等信息。
为了让AI更好地理解3D世界,我们总结出了4篇文章能同时利用视频信息和3D空间数据,让AI具备更强的立体理解能力。
论文1
优点与创新:
1. 该模型能够将视频表示与真实世界的空间环境对齐,从而支持3D视觉定位、3D密集描述和3D问答等任务。通过保持时间和空间上下文信息,减少了预训练数据与实际3D场景之间的差异。
2. 提出了最大覆盖采样策略,将帧选择建模为最大覆盖问题,并采用贪心算法求解。该策略确保选取最具信息量的帧,提高模型对关键时空特征的识别能力,同时优化推理效率。
3. 采用多任务训练方式,在多个3D场景理解基准(ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3D)上取得SOTA性能。仅使用26%的3D数据,相较于LLaVA-3D,在多个任务上实现显著性能提升,展示了视频模型适配3D模态的巨大潜力。
论文2
优点与创新:
1. 视频-语言指令跟随数据(Video-language Instruction-Following Data):我们提供了一个高质量的数据集 LLaVA-Video-178K,专为视频指令跟随任务设计。该数据集包含 17.8 万个视频,提供了 130 万条指令样本,包括详细字幕、自由回答和多项选择问答。
2. 视频大规模多模态模型(Video Large Multimodal Models):我们开发了 LLaVA-Video,这是一系列先进的大型视频-语言模型,能够扩展开源模型在理解视频内容方面的能力。
3. 开源(Open-Source):为了支持通用视觉助手的开发,我们公开了多模态指令数据、代码库、模型检查点以及一个可供公众使用的视觉聊天演示。
论文3
优点与创新:
1. OryxViT 视觉编码器:采用自适应位置嵌入和变长自注意力机制,以原生分辨率生成适用于 LLM 的视觉表示,支持并行处理不同大小的视觉数据。
2. 动态压缩技术:可任意调整降采样比率(1x-16x),通过共享投影器融合信息,实现高效长序列处理,同时保持高精度识别能力。
3. 增强的数据构建与训练策略:提升 Oryx 在多模态图像、视频及 3D 数据理解方面的能力,并适应不同输入分辨率和任务。
论文4
优点与创新:
1. 我们表明,大规模视频生成预训练能够有效促进视觉机器人操控学习。
2. 我们提出了一种灵活的 GPT 风格的 Transformer 模型 GR-1,该模型能够同时支持大规模视频生成预训练和机器人数据微调,从而实现一个统一模型的训练。因此,在大规模视频数据集上训练的模型可以直接用于机器人策略学习。
3. 我们在仿真环境和真实世界中进行了大量实验,以研究 GR-1 在不同设置下的性能。