伪装目标检测论文阅读之Dual-SAM(CVPR-2024)

embedded/2024/9/23 11:20:00/

论文:link
code:code
Fantastic Animals and Where to Find Them:Segment Any Marine Animal with Dual SAM

摘要

  作为水下智能的重要支柱,海洋动物分割(MAS)涉及对海洋环境中的动物进行分割。以往的方法在提取长范围上下文特征方面表现不佳,并且忽略了离散像素之间的连通性。最近,Segment Anything Model(SAM)为一般的分割任务提供了一个通用的框架。遗憾的是,SAM是用自然图像训练的,不能从海洋图像中获得先验知识。此外,地对空导弹的单一位置提示对于事前制导来说是非常不够的。为了解决这些问题,我们提出了一种新的特征学习框架,称为Dual-SAM,用于高性能MAS。为此,我们首先引入SAM范式的双重结构来增强海洋图像的特征学习。然后,我们提出了一种多层耦合提示(MCP)策略来指导全面的水下先验信息,并通过适配器增强了SAM编码器的多层特征。随后,我们设计了一个扩展的融合注意模块(DFAM)来逐步整合SAM编码端的多层次特征。最后,我们没有直接预测海洋动物的面具,而是提出了一种Criss-Cross Connectivity预测(C3P)范例来捕捉离散像素之间的相互连接。使用双解码器,它生成伪标签,并实现对互补特征表示的相互监督,从而比以前的技术有了很大的改进。大量的实验证明,我们提出的方法在五个广泛使用的MAS数据集上取得了最好的性能。

1.介绍

  本文提出了一种新的特征学习框架Dual-SAM,用于高性能多智能体系统。图1显示了我们的灵感和优势。在技术上,我们首先利用SAM的范式引入双重结构,通过伽马校正操作来增强海洋图像的特征学习。同时,我们通过适配器增强了SAM编码器的多层次特性。在此基础上,提出了一种多层次耦合提示(MCP)策略来指导全面的水下先验信息的自动提示。随后,我们设计了一个扩展的融合注意模块(DFAM)来逐步整合SAM编码端的多层次特征。最后,我们没有直接预测海洋动物的面具,而是提出了一种Criss-Cross Connectivity预测(C3P)范例来捕捉离散像素之间的互连。该算法利用双解码器生成伪标签,实现了对互补特征表示的相互监督。与以前的标量预测技术相比,所提出的矢量化表示法具有显著的改进。大量的实验表明,我们提出的方法在五个广泛使用的MAS数据集上取得了最好的性能。
在这里插入图片描述
总结,贡献:
• 提出了一种新的海洋动物分割特征学习框架–Dual-SAM,该框架继承了SAM的能力,并自适应地融入了水下场景的先验知识。
•提出了一种多层次耦合提示(Multi-level Coupled Prompt)策略,通过自动提示来指导全面的水下先验信息
•提出了一种扩展的融合注意模块(DFAM)和Criss交叉连接预测来改善海洋动物的定位感知
•进行大量实验来验证所提出模块的有效性,方法在五个MAS数据集上实现了新的最先进的性能。

2.相关工作

2.1 Marine Animal Segmentation 海洋动物分割

  MAS面临着巨大的挑战,如可变光照、颗粒物、水浊度等。在过去的几十年里,大多数现有的方法主要利用手工制作的特征从技术上讲,基于能量的模型通常被用来预测海洋动物的二进制掩膜。虽然它们取得了很大的成功,但仍然存在一些关键的局限性,如对模糊的稳健性较差,边界不清晰等。随着深度学习的兴起,神经网络成为多智能体系统的首选模型。已经提出了各种网络体系结构来实现性能改进。例如,Li等人[36]提出了一种特征交互编码器和级联译码,以提取更全面的信息。Liu等人[40]结合了通道和空间注意模块来优化特征地图,以获得更好的对象边界。此外,Chen等人[5]提取多尺度特征并引入注意力融合块来突出海洋动物。Fu等人[15]设计了一种数据扩充策略,并使用暹罗结构来学习共享的语义信息。这些基于CNN的模型虽然有效,但缺乏捕捉复杂海洋图像的长期相关性和复杂细节的能力。
  最近,Vision Transformer(VIT)[8]展示了对多种数据类型的出色的全局理解能力。通过结构修改,它在各种分割任务中提供了显著的性能[58,70,71,87]。至于MAS,Hong等人[20]将基于Transformer的编码器应用于水下图像,并显示了有希望的动物分割结果。然而,Transformer面临的一个重大挑战是需要大量的训练数据。目前,还没有用于Transformer培训的超大规模MAS数据集。

2.2 Segment Anything Model for Customized Tasks

  最近,为了实现通用的图像分割,人们提出了SAM。它在大规模分割数据集上进行训练,并显示出零镜头传输能力。通过各种类型的提示,它可针对多种应用程序进行高效部署。然而,它在传输场景中表现出性能限制。此外,SAM解码器的简单性在处理细节感知的分割任务时是一个障碍。为了解决这些限制,人们提出了各种方法。一些作品采用适配器来向SAM注入特定于领域的信息。其他人选择了更具体的解码器结构来改善域感知。还努力使提示的生成自动化,以获得更好的适应性。尽管有这些进步,但由于使用自然图像进行训练,SAM并不能从特定领域获得足够的先验知识。此外,地对空导弹的单一位置提示对于事前制导来说是非常不够的。至于MAS,我们发现只有一项工作涉及微调水下场景的SAM。因此,在这项工作中,我们对SAM进行了深入的研究,以改进定制任务。
所以就是改善了SAM

3.方法

  主要由五部分组成:Dual-SAM Encoder(DSE)、Multi-level Coupled Prompt(MCP) 、Dilated Fusion Attention Module(DFAM),Cirss-Cross Connectivity Prediction(C3P)、Pseudo-label Mutual Supervision(PMS)
在这里插入图片描述

3.1 Dual-SAM Encoder

I β = I α γ , γ = lg ⁡ ( 0.5 ) − lg ⁡ ( m e a n I g r a y / 255 ) {I^\beta } = \sqrt[\gamma ]{{{I^\alpha }}},\gamma = \lg \left( {0.5} \right) - \lg \left( {mean_I^{gray}/255} \right) Iβ=γIα ,γ=lg(0.5)lg(meanIgray/255)
海洋图像: I α I_{\alpha} Iα 校正图像: I β I_{\beta} Iβ,其中 γ \gamma γ是伽马系数,平均灰度I是图像的灰度强度的平均值。
在这里插入图片描述


http://www.ppmy.cn/embedded/38026.html

相关文章

QT上位机的学习

后面又该找工作了,这块的内容也需要好好学习! QT 篇 QT上位机串口编程-CSDN博客 (1)可以通过安装虚拟串口来模拟串口通信的情况 发现我之前安装过(9.0): 可以生成虚拟串口,无需实际硬件串口就可以实现同一台电脑上串口模拟通信…

gitlab集群高可用架构拆分部署

目录 前言 负载均衡器准备 外部负载均衡器 内部负载均衡器 (可选)Consul服务 Postgresql拆分 1.准备postgresql集群 手动安装postgresql插件 2./etc/gitlab/gitlab.rb配置 3.生效配置文件 Redis拆分 1./etc/gitlab/gitlab.rb配置 2.生效配置文件 Gitaly拆分 1.…

在线音视频下载

https://cobalt.tools/ 支持 bilibili 等网站

小白入门:创建一个SpringBoot项目

前言 我们在创建SpringBoot项目时候,会出现不确定和报错的情况很多,大家可以按照我的做法来简单创建一个SpringBoot项目 1.环境配置 下载安装并配置jdk1.8下载apache mavenidea软件 2.开始创建项目 Server URL:初始是start.spring.io,我…

云HIS源码,基于云计算的医院临床信息系统(有应用案列)

云HIS全套商业源码,基于云计算的医院临床信息系统 提供预约挂号、门急诊收费、门诊医生站、护士工作站、药房药库管理、电子病历、住院医生站、住院护士工作站、住院登记结算、出院管理、病案管理、医药价格管理、财务管理、统计查询、会员管理等业务及管理功能。 …

图的存储结构

图的存储 以存点方式存储图 邻接矩阵 vector<vector<int>>v(MAX,vector<int>(MAX,0));邻接表 unordered_map<int,vector<int>> head;以存边方式存储图 链式前向星(静态链表存储邻接表) int h[MAX],num;//head:点集,用于存储以该点为尾的最…

【文献解析】NeRF的原理是什么

论文&#xff1a;https://arxiv.org/abs/2003.08934 TensorFlow代码&#xff1a;https://github.com/bmild/nerfPyToch代码&#xff1a;https://github.com/yenchenlin/nerf-pytorch 一、文章概述 1.问题导向 从新视点生成照片级真实感输出需要正确处理复杂的几何体和材质反…

VALSE 2024 Workshop报告分享┆面向隐私保护数据的联邦因果关系推断

2024年视觉与学习青年学者研讨会&#xff08;VALSE 2024&#xff09;于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道&#xff0c;方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人…