COD论文笔记 BiRefNet

news/2024/9/23 10:19:37/

本质还是一个 U 型编码器解码器结构的分割模型。

在这里插入图片描述
我可以考虑将©和(d)结合,即对解码器的输入不进行 patchify,同时在各个阶段引入梯度参考信息

最近的相关工作,中间监督、额外先验(频率,梯度,边缘等)取得不错效果

作者观察到,对原始图像进行导数运算获得梯度特征,可以很好地反映图像对象中的细微和非显著特征。

双边参考是在解码器中的两个辅助信息:
1.层次化的原始图像块
2.梯度监督信息(对于颜色和纹理上与背景高度相似时,梯度信息过于微弱,此时越引入真实GT特征作为侧向监督)

此外作者提出了一些实用的训练策略。

模型整体结构:

在这里插入图片描述

所谓的定位模块就是编码器,重建模块就是解码器。

对于COD任务,不需要 Cls 模块。

最下面的 ASPP 得到语义信息较强的粗略预测图,然后引导解码器进行细化分割。

不同阶段的patch块大小不同,所以是 multi-scale supervision。

定位模块

重建模块

大的感受野会丢失细节信息,小的感受野会难以定位大尺度目标。作者是如何平衡的呢?

作者使用了可变形卷积DCN来作为重建块(RB)取代普通的残差块( 1 × 1 , 3 × 3 , 7 × 7 1\times1,3\times3,7\times7 1×1,3×3,7×7)。我可以考虑使用最新的DCNv4来进行实验。

在这里插入图片描述
如图所示,所谓的内向参考,其中 F i d + F_i^{d+} Fid+是上一个BirefBlock的输出特征和backbone对应层级特征进行(应该是element-wise addition)得到,然后作为当前BirefBlock的输入,然后作者将当前层级的原始图像进行自适应裁剪得到若干图像块,这两个进行拼接之后送入重构模块,重构模块利用不同感受野和平均池化进行进一步特征提取,然后重构模块输出的特征图副本再送到外向参考中利用梯度监督信息得到 A i G A_i^G AiG , A i G A_i^G AiG F i d ′ F_i^{d'} Fid 进行元素级相乘之后得到特征 F i − 1 d F_{i-1}^d Fi1d

双边参考

内部参考和外部参考分别起到补充高分辨率信息和吸引注意力到细节密集区域的作用。

在内部参考中,原始高分辨率的图像 L L L 被裁剪为与相应解码器阶段的输出特征一致大小的补丁 { P k = 1 N } \{P_{k=1}^N\} {Pk=1N}, 这些补丁与原始特征 F i d + F_i^{d+} Fid+ 叠加后输入重建模块,现有类似技术的方法,要么仅仅在最后的解码阶段添加 L L L,要么将 L L L 调整尺寸,使其适用于低分辨率的原始特征。作者的内部参考通过自适应裁剪避免了这两个问题,并且在每个阶段提供必要的高分辨率信息。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

实现细节

在这里插入图片描述

消融实验

在这里插入图片描述


http://www.ppmy.cn/news/1523836.html

相关文章

Java健康养老智慧相伴养老护理小程序系统源码代办陪诊陪护更安心

健康养老,智慧相伴 —— 养老护理小程序,代办陪诊陪护更安心 🌈【开篇:智慧养老,新时代的温馨守护】🌈 在这个快节奏的时代,我们总希望能给予家人更多的关爱与陪伴,尤其是家中的长…

Go语言实战 pdf

这本书更加注重Go 语言的实战技能,Go语言结合了底层系统语言的能力以及现代语言的高级特性,旨在降低构建简单、可靠、高效软件的门槛。本书向读者提供一个专注、全面且符合语言习惯的视角,这是一本不错的Go 语言入门书。 百度网盘分享

pv和pvc自动匹配、自动创建、自动挂载

目录 概念 pv的状态 pvc在请求的过程中支持的权限控制选项 pv的回收策略 Retain 保留 Delete 删除 Recycle 回收 在yaml文件中指定pv的回收策略 静态pv 1. 配置NFS 2. 创建pv 3. 创建pvc 动态pv 动态pv的步骤 1.配置NFS 2.创建角色、赋权、绑定角色 3.创建NFS…

Java 中处理 XML 文件

在 Java 中处理 XML 文件,通常使用两种主要的解析方式:DOM 解析 和 SAX 解析。每种解析方式各有优劣,适用于不同的场景。下面详细解释这两种 XML 解析方法的基本原理、适用场景、共性规律、注意事项和特殊技巧。 1. DOM 解析 (Document Obje…

【Solidity】类型

Value Type Value Type (值类型) 的变量在赋值或作为函数参数传递时,会复制其数据的值。 布尔类型: contract Demo {bool public isActive; // 默认为 false }布尔值可以进行以下运算: 逻辑运算:! (逻辑非)、&& (逻辑与…

华为 HCIP-Datacom H12-821 题库 (16)

有需要题库的可以加下方Q群 V群进行学习交流 1. OSPF 邻居关系建立出现故障,通过 display ospf error 命令来检查,输出结果如图所示,根据图中内容分析,邻居建立失败的原因可能是以下哪一项? A、Process ID 不一致 B、…

多维时序 | Matlab基于TCN-Transformer+LSTM双输入神经网络时间序列预测

多维时序 | Matlab基于TCN-TransformerLSTM双输入神经网络时间序列预测 目录 多维时序 | Matlab基于TCN-TransformerLSTM双输入神经网络时间序列预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab基于TCN-TransformerLSTM双输入神经网络时间序列预测&#xff…

智慧教室无纸化同屏方案是否适用RTMP?

智慧教室无纸化方案技术背景 智慧教室无纸化方案是一种基于现代信息技术,旨在通过数字化手段实现教学过程的无纸化、智能化和高效化的解决方案。该方案以学生为中心,强调互动化的数字教学服务,旨在提升教学质量和学习效率,同时减…