EmbodiedSAM:在线实时3D实例分割,利用视觉基础模型实现高效场景理解

ops/2025/3/21 11:19:36/

2025-02-12,由清华大学和南洋理工大学的研究团队开发 一种名为 EmbodiedSAM(ESAM)的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解,解决了高质量3D数据稀缺的难题,为机器人导航、操作等任务提供了高效、准确的视觉感知能力。

一、研究背景

随着机器人技术和人工智能的发展,机器人在复杂环境中执行任务(如导航、操作和交互)的能力越来越依赖于对三维(3D)场景的实时、准确理解。这种能力被称为“具身感知”,它要求机器人能够实时处理连续的RGB-D视频流,并生成对场景中物体的细粒度、高泛化的3D实例分割结果。

目前遇到的困难和挑战

1、高质量3D数据稀缺:与2D图像相比,高质量的3D标注数据极为有限,这使得直接在3D中训练模型变得不切实际。

2、实时性要求:具身任务需要模型在数据采集的同时进行感知,且必须具备高推理速度,以支持机器人的实时规划和控制。

3、泛化能力不足:现有方法大多依赖于离线处理或手工设计的策略,难以在不同场景和传感器参数下保持一致的性能。

二、让我们一起来看一下EmbodiedSAM框架

EmbodiedSAM(ESAM)是一种在线3D实例分割框架,目的利用2D视觉基础模型的强大能力,实现对3D场景的实时、细粒度分割。该框架的核心思想是将2D分割掩码提升为3D查询,并通过双层查询解码器进行迭代优化,最终生成准确的3D实例掩码。ESAM的主要模块包括:

1、几何感知查询提升模块:

该模块将SAM生成的2D掩码转化为3D感知的查询,通过点云特征提取和超点(superpoints)聚合,保留细粒度 形状信息。

2、双层查询解码器:

通过掩码交叉注意力和前馈网络,该解码器迭代优化查询,生成点级3D掩码,同时支持超点级和点级特征的高效交互。

3、快速查询合并策略:

利用几何、对比和语义相似性辅助任务,ESAM通过矩阵运算快速计算掩码之间的相似度,并通过二分图匹配合并实例掩码,实现高效的在线更新。

ESAM概述

我们的高效查询合并策略的详细信息。我们提出了三种具有代表性的辅助任务,它们以向量的形式生成几何、对比和语义表示。然后可以通过矩阵乘法有效地计算相似性矩阵。我们进一步修剪了相似性矩阵,并采用二分匹配来合并实例。

不同 3D 实例分割方法在 ScanNet200 数据集上的可视化结果。如红框所示,SAM3D 预测有噪声的掩模,而 SAI3D 倾向于将实例过度分割为多个部分。

合并策略的辅助任务可视化。(a) 几何相似性的 3D 框预测。我们可视化对象在不同时间 moment 的边界框。(b) 对比相似性的实例特异性表示的 t-SNE 可视化。不同的颜色表示不同的实例,不同的点表示不同帧的实例特征。(c) 语义相似性的查询式语义分割。

三、EmbodiedSAM应用场景

比如在工厂里,有一个机器人机械臂,它的任务是从传送带上抓取各种形状和大小的零件,然后把它们精确地安装到一台正在组装的机器上。这个任务听起来好像挺简单的,但实际上,传送带上的零件摆放得乱七八糟,有的歪着,有的躺着,还有的可能被别的零件遮挡了一部分。而且,零件的种类也不止一种,每种零件的形状和尺寸都不一样。

这时候,ESAM就派上大用场了!

首先,工厂里安装了一个RGB-D摄像头,它会实时拍摄传送带上的画面,并且把彩色图像和深度信息一起传送给机器人。ESAM就像是机器人的眼睛和大脑,它能够快速地处理这些图像和深度数据。

具体来说,ESAM的工作是这样的:

1、实时识别和分割:当传送带上的零件进入摄像头的视野时,ESAM会在不到一秒钟的时间内,把传送带上的每个零件都识别出来,并且用3D的方式把它们分割开来。比如,传送带上有一个圆形的齿轮和一个方形的金属块,ESAM不仅能准确地分辨出这是两个不同的物体,还能把它们的形状、大小和位置都精确地“画”出来。

2、提供3D信息:ESAM不仅告诉机器人“这里有东西”,还会告诉机器人这些零件具体在3D空间里的位置。比如,它会告诉机器人:“嘿,那个齿轮在传送带的左边,离你大概50厘米远,直径是10厘米。”这样,机器人就可以根据这些精确的信息,调整自己的机械臂,准确地移动到齿轮的上方。

3、机械臂抓取和操作:有了ESAM提供的3D信息,机械臂就可以轻松地调整自己的姿态和抓取动作。比如,它会根据齿轮的形状和位置,调整抓手的角度和力度,然后稳稳地把齿轮抓起来,再把它送到指定的位置安装上去。如果遇到被遮挡的零件,ESAM也能通过3D信息帮助机器人判断零件的完整形状,从而让机械臂找到最佳的抓取点。

在整个过程中,ESAM就像一个超级聪明的助手,让机器人能够快速、准确地完成任务。而且,不管传送带上的零件怎么变,ESAM都能实时处理,让机器人始终保持高效的工作状态。这样一来,工厂的生产效率就能大大提高,而且出错率也会大大降低。

论文中提到数据集

数据集:ScanNet

数据集介绍:ScanNet是一个包含数千个室内场景的三维点云数据集,用于三维视觉研究。

数据集地址:ScanNet|三维视觉数据集|室内场景重建数据集

数据集:ScanNet200

数据集介绍:ScanNet200数据集包含了200个自然类别不平衡的3D场景。

数据集地址:ScanNet200|三维场景分割数据集|增量学习数据集

数据集:SceneNN

数据集介绍:一个由 100 多个室内场景组成的 RGB-D 场景数据集。

数据集地址:SceneNN:带有注释的场景网格数据集,RGB-D 场景数据集|3D视觉数据集|计算机视觉数据集

数据集:3RScan

数据集介绍:3RScan数据集用于训练和评估三元组网络,从所有RGB相机图像中选择适合训练的图像,并根据不同的标准组合成三元组(锚点、正样本、负样本)

数据集地址:3RScan|深度学习数据集|图像识别数据集

更多经典数据集,请打开:遇见数据集

经典数据集从千万数据集中千里挑一,经过了时间和应用的考研,已成为算法和模型性能评估的基准,是各个领域的数据集代表https://www.selectdataset.com/classics


http://www.ppmy.cn/ops/167256.html

相关文章

ThreadLocal底层原理,内存泄露问题,以及如何在项目中使用这个关键字(总结)

ThreadLocal 底层原理 ThreadLocal 是 Java 中用于实现线程本地存储的类。每个线程都有自己独立的 ThreadLocal 变量副本,线程之间互不干扰。 底层实现 ThreadLocalMap: 每个 Thread 对象内部都有一个 ThreadLocalMap,用于存储线程本地的变量。 Threa…

DeepSeek:从入门到精通

DeepSeek是什么? DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应 用。DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。 Deepseek可以做什么? 直接面向用户或者支持…

全栈网络安全-渗透测试-2

web架构&常规化&站库分离&前后端分离 1. 常规化 原理:常规化是指源码和数据都部署在同一服务器上。 特点: 优势:搭建便捷,自定义程度高。 劣势:安全性较低,因为数据库和代码在同一服务器上&…

YOLO编程:开启计算机视觉的神奇之门

目录 一、从神奇的 AI 应用说起 二、YOLO 是什么 三、YOLO 的独特优势 (一)速度为王 (二)精度可靠 (三)部署便捷 四、YOLO 的工作流程揭秘 (一)图像分割与网格划分 (二)目标预测与数据输出 (三)结果筛选与最终确定 五、YOLO 编程实践 (一)准备工作 …

知识蒸馏:从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新)

知识蒸馏通过迁移教师模型(复杂)的知识到学生模型(轻量),实现模型压缩与性能平衡。核心在于利用教师模型的软标签(概率分布)替代独热编码标签,学生模型不仅学习到教师模型输出数据的类别信息,还能够捕捉到类别之间的相似性和关系,从而提升其泛化能力 核心概念 知识蒸…

基于BClinux8部署Ceph 19.2(squid)集群

#作者&#xff1a;闫乾苓 文章目录 1.版本选择Ceph版本发布历史目前官方在维护的版本 2.部署方法3.服务器规划4.前置配置4.1系统更新4.2配置hosts cat >> /etc/hosts << EOFssh-keygenssh-copy-id ceph01ssh-copy-id ceph02ssh-copy-id ceph034.5 Python34.6 Syst…

MPC算法路径跟踪_Matlab实现

在机器人控制领域&#xff0c;模型预测控制&#xff08;MPC&#xff09;因其能够处理动态约束和多目标优化的特性&#xff0c;成为路径跟踪的热门方案。近期&#xff0c;我在 GitHub 上发现了 Mr.Winter 的MPC路径规划项目&#xff0c;其代码实现简洁且功能完整。本文将结合理论…

Java protected 关键字详解及探究过程(详细、准确)

参考菜鸟教程&#xff1a;Java protected 关键字详解&#xff0c;初步学习了protected可见性相关的内容&#xff0c;但发现其仍有不足之处&#xff0c;特此自行探究。 protected可见性&#xff1a; 先给出关于protected可见性的结论&#xff1a; protected可见性遵循这样的优…