【arxiv】关于 SAM 的论文扫读(一)

news/2025/1/11 20:06:17/

文章目录

  • 一、阴影检测
  • 二、弱监督下的隐蔽物体分割:基于SAM的伪标签和多尺度特征分组
  • 三、Instruct2Act:利用大型语言模型将多模态指令映射到机器人动作
  • 四、OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation with Neural Radiance Fields
  • 五、PromptUNet: Toward Interactive Medical Image Segmentation
  • 六、Explain Any Concept: Segment Anything Meets Concept-Based Explanation

一、阴影检测

论文地址:

https://arxiv.org/pdf/2305.11513.pdf

在这里插入图片描述

Segment Anything Model (SAM)作为一种可提示的通用目标分割模型,近期引起了极大的关注,并展示了强大的性能。然而,在面对某些任务时,例如医学图像分割、伪装对象检测等,SAM仍然面临困难。在本报告中,我们将SAM应用于一个未被探索的热门任务:阴影检测。具体而言,我们选择了四个基准数据集,并使用广泛使用的评估指标进行评估。实验结果表明,SAM在阴影检测方面的性能不令人满意,特别是与复杂模型相比较时。

在这里插入图片描述

二、弱监督下的隐蔽物体分割:基于SAM的伪标签和多尺度特征分组

在这里插入图片描述
论文地址:

https://arxiv.org/pdf/2305.11003.pdf

该论文提出了一种新的弱监督隐蔽目标分割(WSCOS)方法,旨在使用稀疏注释数据对与周围环境混合在一起的目标进行分割。

这是一项具有挑战性的任务,因为由于内在的相似性,很难区分隐蔽目标和背景,并且稀疏注释的训练数据只提供了弱监督来进行模型学习。

为了应对内在相似性的挑战,研究人员设计了一个多尺度特征组合模块,首先在不同粒度上对特征进行分组,然后聚合这些分组结果。

通过将相似的特征组合在一起,它鼓励分割的连贯性,有助于获取单个和多个目标图像的完整分割结果。

为了解决弱监督挑战,研究人员利用最近提出的视觉基础模型“Segment Anything Model (SAM)”,使用提供的稀疏注释作为提示生成分割掩码,用于训练模型。

为了减轻低质量分割掩码的影响,研究人员进一步提出了一系列策略,包括多增强结果集合、基于熵的像素级加权和基于熵的图像级选择。这些策略有助于为分割模型提供更可靠的监督。实验证实了该方法在各种WSCOS任务上的有效性,并且实验表明该方法在这些任务上达到了最先进的性能水平。

三、Instruct2Act:利用大型语言模型将多模态指令映射到机器人动作

这篇论文介绍了Instruct2Act,这是一个利用大型语言模型将多模态指令映射到机器人操纵任务的顺序动作的框架。具体而言,Instruct2Act利用语言模型生成Python程序,构建了包含感知、规划和执行环节的全面机器人任务循环。在感知部分,预定义的API用于访问多个基础模型,其中Segment Anything Model (SAM) 准确地定位候选对象,而CLIP对它们进行分类。这样,该框架利用基础模型的专业知识和机器人能力,将复杂的高级指令转化为精确的策略代码。我们的方法可调整和灵活,适应各种指令模态和输入类型,并满足特定任务需求。我们通过在桌面操纵领域的不同场景中进行机器人任务评估,验证了我们方法的实用性和效率。此外,我们的零样本方法在多个任务中优于许多最先进的基于学习的策略。

四、OR-NeRF: Object Removing from 3D Scenes Guided by Multiview Segmentation with Neural Radiance Fields

本文介绍了一种名为OR-NeRF的新型对象去除流程,旨在通过在单个视图上使用点或文本提示,从3D场景中移除对象,并在更短的时间内实现更好的性能。当前方法在去除对象时面临着一些挑战,例如耗时的对象标注、有限的去除特定目标能力以及去除后渲染质量的损失。本文提出的方法通过使用点投影策略将用户注释快速传播到所有视图,显著减轻了处理负担。该算法允许我们利用最近的2D分割模型Segment-Anything (SAM)以提高精度和效率预测掩模。此外,我们通过2D修复方法获取颜色和深度先验。最后,我们的算法通过深度监督和感知损失进行场景重建,以保持去除对象后的几何和外观一致性。实验结果表明,与之前的方法相比,我们的方法在质量和数量上都实现了更好的编辑质量,并且用时更短。

五、PromptUNet: Toward Interactive Medical Image Segmentation

最近,基于提示的分割方法,也被称为交互式分割,在图像分割领域中越来越受欢迎。一个名为Segment Anything Model (SAM)的设计良好的提示模型展示了其在广泛的自然图像分割中的能力,引起了社区的广泛讨论。然而,最近的研究表明,SAM在医学图像上的表现不佳。这促使我们设计一种专门用于医学图像分割的新型基于提示的分割模型。在本文中,我们将基于提示的分割范式与UNet相结合,UNet是一种被广泛认可的成功的医学图像分割架构。我们将得到的模型命名为PromptUNet。为了适应实际的临床应用,我们扩展了SAM中现有的提示类型,包括新的支持性提示和En-face提示。我们使用各种图像模态,包括CT、MRI、超声、眼底和皮肤镜图像,在19个医学图像分割任务上评估了PromptUNet的能力。我们的结果显示,PromptUNet优于一系列最先进的医学图像分割方法,包括nnUNet、TransUNet、UNetr、MedSegDiff和MSA。

六、Explain Any Concept: Segment Anything Meets Concept-Based Explanation

解释性人工智能(Explainable AI,XAI)是改善人类对深度神经网络(DNN)的理解的重要主题,因为DNN内部是黑盒子。对于计算机视觉任务,主流的基于像素的XAI方法通过识别重要像素来解释DNN的决策,而新兴的基于概念的XAI方法则探索使用概念(例如图像中的头部)来形成解释。然而,像素通常难以解释,并对XAI方法的不精确性敏感,而先前的工作中的"概念"需要人工注释或仅限于预定义的概念集。另一方面,受大规模预训练的推动,Segment Anything Model (SAM)已被证明是一种强大且可推广的框架,可进行精确而全面的实例分割,从而能够从给定图像中自动准备概念集。本文首次探讨了使用SAM增强基于概念的XAI。我们提供了一种有效且灵活的基于概念的解释方法,即Explain Any Concept (EAC),它可以用任何概念来解释DNN的决策。


http://www.ppmy.cn/news/87398.html

相关文章

R语言环境配置指南:详解安装和设置步骤(ChatGPT3.5)

标题:R语言环境配置指南:详解安装和设置步骤 导语: R语言是一种功能强大的统计分析和数据可视化工具,为了充分利用其优势,正确配置R语言环境至关重要。本文将详细介绍如何安装R语言以及配置开发环境,包括选…

two-stage目标检测算法

R-CNN 现在,将目光穿越回2012年,hinton刚刚提出alexnet的时代。 此时,该如何审视目标检测任务? 当时的目标检测采用的是滑动窗口手动特征分类器的思路。 该方法的弱点包括 速度慢 精度差 精度差的问题是由手工特征造成的&am…

QCM6490 多次点击power键才能唤醒屏幕

项目场景: 点击2-3次power键才能唤醒屏幕。 1.gpio 占用,目测最有可能的是gpio占用 导致超时 (1.通过添加log定位 2.排查添加的gpio)-排除,没有报错也无法唤醒 2.休眠有问题 3.唤醒有问题 4.pmi休眠唤醒异常导致 --对…

HTTP(十)-- HTTP综合案例

目录 1. 项目结构 2. 数据库结构 2.1 建立user表 2.2 配置jbdc.properties文件 2.3 导入JDBCUtils工具类

2023网络安全工程师面试宝典(附答案)

2023年即将过去一半,先来灵魂三连问: 年初定的目标完成多少了?薪资涨了吗?女朋友找到了吗? ​好了,不扎大家的心了,接下来进入正文。 1、SQL注入的原理是什么? SQL注入攻击是通过将…

MySQL数据库进行性能优化的思路

对MySQL数据库进行性能优化的思路可以涵盖以下方面: 索引优化: 索引是提高查询性能的关键。确保表中的关键列和经常用于查询条件的列都被适当地创建了索引。可以使用CREATE INDEX语句添加索引,或者使用ALTER TABLE语句在已有表上添加索引。例…

解码“源启”的昨天、今天和明天

源启是中国电子依托自主计算产业链,采用新一代架构,为金融及重点行业打造的数字化新型基础设施。源启自推出以来受到了广泛关注与热议,本文通过回答因何源启、何为源启以及源启未来如何发展三个问题,与业界分享我们对新型数字基础…

lwIP更新记08:TCP 回调函数中调用 tcp_abort 终于安全了

从 lwIP-1.4.0 开始,tcp 回调函数中调用 tcp_abort 函数终于安全了。 在此之前,如果从 tcp 回调函数中调用 tcp_abort,则会访问未分配的内存。 应用程序关闭连接,正常情况下是调用 tcp_close 函数,经过 4 次握手安全的…