整理:开启新征程!四篇文章助力 AI,告别 “3D理解困难户”

news/2025/3/13 19:29:11/

近年来,人工智能的发展让大语言模型(MLLM)变得越来越强大,它们可以理解和处理文字、图片、视频等多种信息,在很多领域都有很好的应用。然而,当这些模型需要理解 3D(立体)场景 时,仍然面临一些困难。 

目前的MLLM主要是用 2D图片训练出来的,也就是说,它们更擅长识别 平面的信息,比如照片中的人和物体。但是,现实世界是三维的(3D),仅靠2D图片训练的模型很难准确理解物体的立体关系。

例如,如果只给一个普通的AI模型一张照片,它可能能识别出一辆汽车,但无法准确判断这辆汽车离自己有多远,或者它的大小、角度等信息。

为了让AI更好地理解3D世界,我们总结出了4篇文章能同时利用视频信息和3D空间数据,让AI具备更强的立体理解能力。

论文1

图片

优点与创新:

1. 该模型能够将视频表示与真实世界的空间环境对齐,从而支持3D视觉定位、3D密集描述和3D问答等任务。通过保持时间和空间上下文信息,减少了预训练数据与实际3D场景之间的差异。

2. 提出了最大覆盖采样策略,将帧选择建模为最大覆盖问题,并采用贪心算法求解。该策略确保选取最具信息量的帧,提高模型对关键时空特征的识别能力,同时优化推理效率。

3. 采用多任务训练方式,在多个3D场景理解基准(ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3D)上取得SOTA性能。仅使用26%的3D数据,相较于LLaVA-3D,在多个任务上实现显著性能提升,展示了视频模型适配3D模态的巨大潜力。

论文2

图片

优点与创新:

1. 视频-语言指令跟随数据(Video-language Instruction-Following Data):我们提供了一个高质量的数据集 LLaVA-Video-178K,专为视频指令跟随任务设计。该数据集包含 17.8 万个视频,提供了 130 万条指令样本,包括详细字幕、自由回答和多项选择问答。

2. 视频大规模多模态模型(Video Large Multimodal Models):我们开发了 LLaVA-Video,这是一系列先进的大型视频-语言模型,能够扩展开源模型在理解视频内容方面的能力。

3. 开源(Open-Source):为了支持通用视觉助手的开发,我们公开了多模态指令数据、代码库、模型检查点以及一个可供公众使用的视觉聊天演示。

论文3

图片

优点与创新:

1. OryxViT 视觉编码器:采用自适应位置嵌入和变长自注意力机制,以原生分辨率生成适用于 LLM 的视觉表示,支持并行处理不同大小的视觉数据。

2. 动态压缩技术:可任意调整降采样比率(1x-16x),通过共享投影器融合信息,实现高效长序列处理,同时保持高精度识别能力。

3. 增强的数据构建与训练策略:提升 Oryx 在多模态图像、视频及 3D 数据理解方面的能力,并适应不同输入分辨率和任务。

论文4

图片

优点与创新:

1. 我们表明,大规模视频生成预训练能够有效促进视觉机器人操控学习。

2. 我们提出了一种灵活的 GPT 风格的 Transformer 模型 GR-1,该模型能够同时支持大规模视频生成预训练和机器人数据微调,从而实现一个统一模型的训练。因此,在大规模视频数据集上训练的模型可以直接用于机器人策略学习。 

3. 我们在仿真环境和真实世界中进行了大量实验,以研究 GR-1 在不同设置下的性能。


http://www.ppmy.cn/news/1578862.html

相关文章

golang从入门到做牛马:第二十一篇-Go语言错误处理:优雅的“故障排除”

在Go语言中,错误处理是一种非常重要的编程实践。Go通过内置的错误接口和一系列机制,提供了一种简单而清晰的错误处理方式。与传统的异常处理机制不同,Go的错误处理采用显式返回错误的方式,这使得代码逻辑更加清晰,便于开发者在编译时或运行时明确处理错误。接下来,让我们…

Web服务器配置、虚拟主机配置、访问权限控制

一、Web服务器配置——建站,测试虚拟主机访问 内容概述: 配置虚拟主机并启动XAMPP的Apache。在htdocs目录中创建www.php.test目录,并在其中创建index.html文件,内容为“Welcome www.php.test”。访问虚拟主机添加额外的虚拟主机配…

ORACLE EBS数据库RELINK方式搭建克隆环境

ORACLE EBS系统的数据库,一般都安装了很多特定功能的小补丁来解决特定的BUG;因此对于已经安装好的系统,想要克隆一套测试环境、搭建一个新的备机做测试等,如果按照生产环境标准,则需要安装大量补丁,带来很大…

Docker极简部署开源播放器Splayer结合内网穿透远程流畅在线听歌

前言 嘿,各位音乐发烧友们!如果你厌倦了广告的打扰,渴望在忙碌的生活中找到一片宁静的音乐天地,那么今天这篇教程绝对适合你——如何在Ubuntu上用Docker快速搭建一款高颜值、无广告的某抑云音乐播放器Splayer。 Splayer不仅界面…

算法每日一练 (10)

💢欢迎来到张胤尘的技术站 💥技术如江河,汇聚众志成。代码似星辰,照亮行征程。开源精神长,传承永不忘。携手共前行,未来更辉煌💥 文章目录 算法每日一练 (10)最接近的三数之和题目描述解题思路解…

Git 的详细介绍及用法

一、Git 的优点 分布式版本控制 每个开发者都拥有完整的仓库副本,无需依赖中央服务器(如 SVN)。支持离线操作(提交、查看历史、创建分支等)。 高效的分支管理 创建和切换分支速度快(几乎是瞬间完成&#x…

JVM、MySQL常见面试题(尽力局)

JVM篇 一.谈一谈JDK、JRE、JVM分别是什么,有什么联系? 1.JDK是Java工具包,里面包含了JRE、Javac编译器等。 2.JRE是java运行环境,里面包含了JVM、JavaSE标准库类等。 3.JVM是Java虚拟机,运行编译后的.class的文件&am…

《鸿蒙系统下AI模型训练加速:时间成本的深度剖析与优化策略》

在当今数字化浪潮中,鸿蒙系统凭借其独特的分布式架构与强大的生态潜力,为人工智能的发展注入了新的活力。随着AI应用在鸿蒙系统上的日益普及,如何有效降低模型训练的时间成本,成为了开发者与研究者们亟待攻克的关键课题。这不仅关…