EmbodiedSAM:在线实时3D实例分割,利用视觉基础模型实现高效场景理解

server/2025/3/20 3:55:00/

2025-02-12,由清华大学和南洋理工大学的研究团队开发 一种名为 EmbodiedSAM(ESAM)的在线3D实例分割框架。该框架利用2D视觉基础模型辅助实时3D场景理解,解决了高质量3D数据稀缺的难题,为机器人导航、操作等任务提供了高效、准确的视觉感知能力。

一、研究背景

随着机器人技术和人工智能的发展,机器人在复杂环境中执行任务(如导航、操作和交互)的能力越来越依赖于对三维(3D)场景的实时、准确理解。这种能力被称为“具身感知”,它要求机器人能够实时处理连续的RGB-D视频流,并生成对场景中物体的细粒度、高泛化的3D实例分割结果。

目前遇到的困难和挑战

1、高质量3D数据稀缺:与2D图像相比,高质量的3D标注数据极为有限,这使得直接在3D中训练模型变得不切实际。

2、实时性要求:具身任务需要模型在数据采集的同时进行感知,且必须具备高推理速度,以支持机器人的实时规划和控制。

3、泛化能力不足:现有方法大多依赖于离线处理或手工设计的策略,难以在不同场景和传感器参数下保持一致的性能。

二、让我们一起来看一下EmbodiedSAM框架

EmbodiedSAM(ESAM)是一种在线3D实例分割框架,目的利用2D视觉基础模型的强大能力,实现对3D场景的实时、细粒度分割。该框架的核心思想是将2D分割掩码提升为3D查询,并通过双层查询解码器进行迭代优化,最终生成准确的3D实例掩码。ESAM的主要模块包括:

1、几何感知查询提升模块:

该模块将SAM生成的2D掩码转化为3D感知的查询,通过点云特征提取和超点(superpoints)聚合,保留细粒度 形状信息。

2、双层查询解码器:

通过掩码交叉注意力和前馈网络,该解码器迭代优化查询,生成点级3D掩码,同时支持超点级和点级特征的高效交互。

3、快速查询合并策略:

利用几何、对比和语义相似性辅助任务,ESAM通过矩阵运算快速计算掩码之间的相似度,并通过二分图匹配合并实例掩码,实现高效的在线更新。

ESAM概述

我们的高效查询合并策略的详细信息。我们提出了三种具有代表性的辅助任务,它们以向量的形式生成几何、对比和语义表示。然后可以通过矩阵乘法有效地计算相似性矩阵。我们进一步修剪了相似性矩阵,并采用二分匹配来合并实例。

不同 3D 实例分割方法在 ScanNet200 数据集上的可视化结果。如红框所示,SAM3D 预测有噪声的掩模,而 SAI3D 倾向于将实例过度分割为多个部分。

合并策略的辅助任务可视化。(a) 几何相似性的 3D 框预测。我们可视化对象在不同时间 moment 的边界框。(b) 对比相似性的实例特异性表示的 t-SNE 可视化。不同的颜色表示不同的实例,不同的点表示不同帧的实例特征。(c) 语义相似性的查询式语义分割。

三、EmbodiedSAM应用场景

比如在工厂里,有一个机器人机械臂,它的任务是从传送带上抓取各种形状和大小的零件,然后把它们精确地安装到一台正在组装的机器上。这个任务听起来好像挺简单的,但实际上,传送带上的零件摆放得乱七八糟,有的歪着,有的躺着,还有的可能被别的零件遮挡了一部分。而且,零件的种类也不止一种,每种零件的形状和尺寸都不一样。

这时候,ESAM就派上大用场了!

首先,工厂里安装了一个RGB-D摄像头,它会实时拍摄传送带上的画面,并且把彩色图像和深度信息一起传送给机器人。ESAM就像是机器人的眼睛和大脑,它能够快速地处理这些图像和深度数据。

具体来说,ESAM的工作是这样的:

1、实时识别和分割:当传送带上的零件进入摄像头的视野时,ESAM会在不到一秒钟的时间内,把传送带上的每个零件都识别出来,并且用3D的方式把它们分割开来。比如,传送带上有一个圆形的齿轮和一个方形的金属块,ESAM不仅能准确地分辨出这是两个不同的物体,还能把它们的形状、大小和位置都精确地“画”出来。

2、提供3D信息:ESAM不仅告诉机器人“这里有东西”,还会告诉机器人这些零件具体在3D空间里的位置。比如,它会告诉机器人:“嘿,那个齿轮在传送带的左边,离你大概50厘米远,直径是10厘米。”这样,机器人就可以根据这些精确的信息,调整自己的机械臂,准确地移动到齿轮的上方。

3、机械臂抓取和操作:有了ESAM提供的3D信息,机械臂就可以轻松地调整自己的姿态和抓取动作。比如,它会根据齿轮的形状和位置,调整抓手的角度和力度,然后稳稳地把齿轮抓起来,再把它送到指定的位置安装上去。如果遇到被遮挡的零件,ESAM也能通过3D信息帮助机器人判断零件的完整形状,从而让机械臂找到最佳的抓取点。

在整个过程中,ESAM就像一个超级聪明的助手,让机器人能够快速、准确地完成任务。而且,不管传送带上的零件怎么变,ESAM都能实时处理,让机器人始终保持高效的工作状态。这样一来,工厂的生产效率就能大大提高,而且出错率也会大大降低。

论文中提到数据集

数据集:ScanNet

数据集介绍:ScanNet是一个包含数千个室内场景的三维点云数据集,用于三维视觉研究。

数据集地址:ScanNet|三维视觉数据集|室内场景重建数据集

数据集:ScanNet200

数据集介绍:ScanNet200数据集包含了200个自然类别不平衡的3D场景。

数据集地址:ScanNet200|三维场景分割数据集|增量学习数据集

数据集:SceneNN

数据集介绍:一个由 100 多个室内场景组成的 RGB-D 场景数据集。

数据集地址:SceneNN:带有注释的场景网格数据集,RGB-D 场景数据集|3D视觉数据集|计算机视觉数据集

数据集:3RScan

数据集介绍:3RScan数据集用于训练和评估三元组网络,从所有RGB相机图像中选择适合训练的图像,并根据不同的标准组合成三元组(锚点、正样本、负样本)

数据集地址:3RScan|深度学习数据集|图像识别数据集

更多经典数据集,请打开:遇见数据集

经典数据集从千万数据集中千里挑一,经过了时间和应用的考研,已成为算法和模型性能评估的基准,是各个领域的数据集代表https://www.selectdataset.com/classics


http://www.ppmy.cn/server/176413.html

相关文章

element-ui progress 组件源码分享

progress 进度条组件源码分享,主要从以下两个方面: 1、progress 组件页面结构。 2、progress 组件属性。 一、组件页面结构。 二、组件属性。 2.1 percentage 百分比(必填),类型为 number,可选值 0-100…

JVM常用概念之信任非静态final字段

问题 JVM可以信任非静态的final字段吗? 基础知识 编译器通常信任static final字段,因为已知该值不依赖于特定对象,并且已知它不会改变。那对于静态常量实例的final字段也使如此吗? class M {final int x;M(int x) { this.x x; } }static final M …

网络安全运维应急响应与溯源分析实战案例

在日常运维过程中,网络安全事件时有发生,快速响应和精准溯源是保障业务稳定运行的关键。本文将通过一个实际案例,详细解析从发现问题到溯源定位,再到最终解决的完整流程。 目录 一、事件背景 二、事件发现 1. 监控告警触发 2.…

Redis的IO多路复用机制:高效的网络通信设计

在高并发、高性能的应用中,如何有效地管理和处理大量的客户端请求是一个至关重要的问题。Redis作为一个高性能的内存数据存储系统,面对大量并发客户端请求时,需要具备良好的网络通信能力。在Redis的设计中,IO多路复用机制是其核心…

N皇后问题——dfs解法(回溯+减枝+深搜)

一.题目 这是一道很经典的题,首先分析一下题目,就是在棋盘上下棋,但是同一行,同一列,对角线上不能有棋子,否则无法落子,那这些信息也就是约束条件,模拟这些信息就是减枝函数的内容 …

【数据分享】2000—2024年我国省市县三级逐年归一化植被指数(NDVI)数据(年最大值/Shp/Excel格式)

之前我们分享过2000-2024年我国逐年的归一化植被指数(NDVI)栅格数据,该逐年数据是取的当年月归一化植被指数(NDVI)的年最大值。(可查看之前的文章获悉详情)!该数据来源于NASA定期发布…

【第九节】windows sdk编程:通用控件的使用

目录 引言 一、通用控件简介 二、 WM_NOTIFY 消息 三、通用控件的使用 3.1 进度条 3.2 滑块 3.3 ListControl 引言 通用控件是Windows操作系统扩展的一组功能丰富的界面元素,广泛应用于各类应用程序中。它们不仅简化了用户界面的开发,还提供了强大…

HiPixel开源AI驱动的图像超分辨率的原生macOS 应用程序,使用 SwiftUI 构建并利用 Upscayl 强大的 AI 模型

一、软件介绍 文末提供程序和源码下载 HiPixel是一个开源程序基于SwiftUI构建的macOS原生应用程序,用于AI驱动的图像超分辨率,并利用Upscayl的强大AI模型。 二、软件特征 具有 SwiftUI 界面的原生 macOS 应用程序使用 AI 模型进行高质量图像放大通过 G…