BGNet

news/2024/11/29 22:29:00/

为此,在本文中,我们提出了一种新的边界引导网络(BGNet),它显式地使用边缘语义来增强伪装对象检测的性能。首先,我们设计了一个简单而有效的边缘感知模块(EAM),它集成了低级别的局部边缘信息和高级别的全局位置信息,以在显式边界监督下探索与对象边界相关的边缘语义。然后,引入边缘引导特征模块(EFM),将边缘特征与伪装的目标特征在不同层次上结合起来,以指导COD的表示学习。EFM模块可以强制网络更加关注对象结构和细节。然后,从上到下逐渐聚合多级融合特征,以预测伪装对象。为了增强特征表示,我们构建了上下文聚合模块(CAM),该模块通过一系列萎缩卷积来挖掘和聚合多尺度上下文语义,以产生具有更强和更有效表示的特征。得益于精心设计的模块,所提出的BGNet预测具有精细对象结构和边界的伪装对象。注意,与MGL相比,我们设计了一个更简单但更有效的边缘提取模块来挖掘准确的对象边界语义,然后通过所提出的EFM和CAM来指导伪装对象的特征表示学习。此外,我们的方法实现了更精确的对象定位和更强的对象结构保存。综上所述,我们的主要贡献如下:
•对于COD任务,我们提出了一种新的边界引导网络,即BGNet,它挖掘并集成了边界相关的边缘语义,以提高伪装对象检测的性能。
。我们精心设计了边缘引导特征模块(EFM)和上下文聚合模块(CAM),以增强边界语义,并为COD探索有价值和强大的特征表示。
数据集。
为了促进基于深度学习的伪装对象检测,提出了一些注释数据集。[Le等人,2019年]构建了第一个伪装对象数据集,即CAMO,包括涵盖八个类别的1250幅伪装图像。[Fan等人,2020a]收集了一个大规模的具有挑战性的数据集,称为COD10K,其中包含10000张图像,涵盖78个伪装的对象类别,具有高质量和分层注释。最近,为了支持伪装对象的定位和排名,[Lv等人,2021]提出了一个基于排名的测试数据集,命名为NC4K,其中包含4121个带有额外定位注释和排名注释的图像。

**伪装物体检测。**近年来,伪装物体检测在计算机视觉界引起了越来越多的关注[Pang等人,2022;Cheng等人,2022]。自大规模数据集(如CAMO和COD10K)发布以来,已经提出了许多基于深度学习的伪装对象检测模型,并取得了巨大进展。这些方法大致可分为三种。第一类方法是设计先进的网络模块/架构,以探索COD的辨别伪装特征。[Sun等人,2021]设计了一个注意力诱导的跨层融合模块和一个双分支全局上下文模块来增强特征表示。[Y ang等人,2021]将贝叶斯学习纳入基于变压器的推理中,该推理可以利用COD的确定性和概率信息。第二类方法是将一些辅助任务组合到联合学习框架中,以提高COD的性能。[Le等人,2019]提出了一种合成分支网络,该网络执行辅助分类网络,以帮助伪装对象分割。[Zhai等人,2021]将边缘提取作为辅助任务,并将其纳入COD的互图学习中。[Li等人,2021]提出了一种联合显著目标检测和伪装目标检测网络,以增强这两项任务的检测能力。为了对伪装对象进行分割和排序,[Lv等人,2021]在联合学习框架中设计了一个基于等级的COD模型,该模型可以相互提高性能。最后一种是生物启发方法,其灵感来自自然界中捕食者的行为过程或人类视觉心理模式。[Fan等人,2020a]提出了一个搜索识别网络,以逐步定位和搜索伪装对象,灵感来自野生捕食者发现猎物的过程。[Mei等人,2021]通过模拟捕食的检测和识别阶段,提出了定位和聚焦网络。
总体架构
所提出的BGNet的总体架构如图2所示。具体而言,我们采用Res2Net-50[Gao等人,作为我们的骨干网络,从输入图像中提取多级特征,即fi(i=1,2,…,5)。然后,应用边缘感知模块(EAM)从包含局部边缘细节(f2)的低级特征和包含全局位置信息(f5)的高级特征中挖掘与对象相关的边缘语义在对象边界监督下。利用多个边缘引导特征模块(EFM)将EAM的边缘线索与每个级别的多层次主干特征(f2-f5)集成,以指导特征学习,从而增强边界表示。最后,使用多个上下文聚合模块(CAM)以自顶向下的方式逐步聚合多层次融合特征并发现伪装对象。在测试中,我们选择最后一个CAM的预测作为最终结果。注意到,我们不采用f1主干特征,因为它太接近具有大量冗余信息和小接收野的输入。
图2:拟议BGNet的总体架构,包括三个关键组件,即边缘感知模块(EAM)、边缘引导特征模块(EFM)和上下文聚合模块(CAM)。详见第3节。
3.2边缘感知模块
良好的边缘先验可以使分割和定位中的对象检测受益 [Zhang等,2017; Zhao等,2019]。尽管低级特征包含丰富的边缘细节,但它们也引入了许多非对象边缘。因此,需要高级语义或位置信息来促进对伪装的对象相关边缘特征的探索。在该模块中,我们结合了低级特征 (f2) 和高级特征 (f5) 来对与对象相关的边缘信息进行建模,如图8所示。具体而言,首先使用两个1 × 1卷积层将f2和f5的通道分别改变为64 (f  2) 和256 (f  5)。然后,我们通过串联操作将特征f  2和上采样的f  5积分。最后,我们通过两个3 × 3卷积层和一个1 × 1卷积层,然后是Sigmoid函数,获得了边缘特征fe。EAM是一个简单而有效的模块,用于提取特定的边缘特征。如图7所示,EAM完美地学习了对象边界相关的边缘语义。
3.3边缘引导特征模块 (EFM)
旨在将与边界相关的边缘提示注入表示学习中,以增强具有对象结构语义的特征表示。众所周知,不同的特征通道通常包含差异化的语义。因此,为了实现良好的集成并获得强大的表示形式,我们引入了本地渠道注意机制来探索跨渠道互动并挖掘渠道之间的关键线索。如图4所示,给定输入特征fi (i ∈ {2,3,…,5}) 和边缘特征fe,我们首先用一个额外的跳跃连接和一个3 × 3卷积在它们之间进行逐元素乘法,以获得初始融合特征fe i,它可以表示为: fe i = Fconv((fi ﹐ d (fe),(1) 其中,D表示下采样,Fconv是3 × 3卷积。“” 是逐元素乘法,“” 是逐元素加法。为了增强特征表现,受 [Wang等人,2020] 的启发,我们引入了本地注意力来探索关键特征渠道。具体来说,我们使用通道式全局平均池 (GAP) 聚合卷积特征 (fe i)。然后,我们通过一维卷积后跟Sigmoid函数获得相应的通道注意力 (权重)。与完全连接的操作不同,完全连接的操作捕获了所有通道的依赖关系,但显示出很高的复杂性,我们探索本地跨通道的交互并以本地方式学习每个注意力,例如,仅考虑每个通道的k个邻居。之后,我们将通道注意与输入特征fe i相乘,并将通道减小1 × 1卷积层,得到最终输出fa i,即fa i = Fconv1(σ(Fk 1D(GAP(fe i) 的ffe i),(2) 其中Fconv1是1 × 1卷积,Fk 1D是核大小为k的1D卷积,σ 表示Sigmoid函数。内核大小k可以自适应地设置为k = |(1 log2©)/2 | 奇数,其中 | ∗ | 奇数表示最接近的奇数,C是fe i的通道。内核大小与通道尺寸成正比。显然,所提出的注意策略可以突出关键通道并抑制冗余通道或噪声,从而增强语义表示。
3.4上下文聚合模块
为了集成用于伪装对象预测的多级融合特征,我们设计了一个上下文聚合模块 (CAM) 来挖掘上下文语义以增强对象检测,如图5所示。与BBSNet [Fan等人,2020c] 中的全局上下文模块不同,它仅利用几个独立的平行分支来分别提取不同尺度的特征,而不考虑各个分支之间的语义相关性 [Wu等人,2020],CAM考虑了跨尺度交互以增强特征表示。以fa 4和fa 5为例,我们首先对fa 5进行上采样,并将它们串联,然后进行1 × 1卷积层,以获得初始聚合特征fm。接下来,我们沿着通道维度将fm均匀地划分为四个特征图 (f1 m,f2 m,f3 m,f4 m),然后进行跨尺度交互学习,即通过一系列的atrous卷积来整合相邻分支的特征以提取多尺度上下文特征。可以表示为: fj  m = Fnj conv(fj − 1  m什么fj 1 m),j ∈ {1,2,3,4},(3) 其中Fnj conv表示3 × 3 atrous卷积,其膨胀速率为nj。在我们的实验中,我们设置nj = {1,2,3,4}。此外,对于i = 1,只有f1 m和f2 m; 对于i = 4,只有f4 m和f3  m。然后,我们将这四个多尺度特征fj  m串联起来,然后是1 × 1卷积,剩余连接和3 × 3卷积,可以表示为: fc i = Fconv(Fconv1([fj  m]) fm),(4) 其中 [∗] 是级联运算,fc i是CAM的输出。请注意,对于i = {2,3},将前一个凸轮的输出 (fc i 1) 与fa i一起用作下一个凸轮的输入,以获得fc i。通过另一个1 × 1卷积来改变特征fc i的通道数,我们可以获得伪装对象的预测Pi (i ∈ {2,3,4}。
3.5损失函数
我们的模型有两种监督: 伪装对象掩码 (Go) 和伪装对象边缘 (Ge)。对于掩模监督,我们采用加权二进制交叉熵损失 (Lw BCE) 和加权IOU损失 (Lw IOU) [Wei等人,2020],它们更关注硬像素,而不是分配所有像素相等的权重。对于边缘监督,我们采用dice损失 (Ldice) [Xie等,2020] 来处理正负样本之间的强不平衡。请注意,对来自CAM的三个伪装对象预测 (Pi,i ∈ {2,3,4}) 进行掩模监督。因此,总损失定义为: Ltotal =  4 i = 2(Lw BCE(Pi,Go) Lw IOU(Pi,Go)) λ ldice (Pe,Ge),其中 λ 是权衡参数,在我们的实验中设置 λ = 3,pe是伪装物体边缘的预测。

4实验

4.1实现细节
我们用PyTorch实现我们的模型,并采用在ImageNet上预先训练的Res2Net50 [Gao等人,2019] 作为我们的骨干。我们将所有输入图像的大小调整为416x416,并通过随机水平翻转来增强它们。在训练阶段,批量大小设置为16,并采用Adam优化器 [Kingma和Ba,2014]。将学习率初始化为1e-4,并通过具有0.9的幂的poly策略进行调整。在NVIDIA Tesla P40 GPU的加速下,整个培训大约需要2个小时,25个时期。4.2数据集,我们在三个公共基准数据集上评估我们的方法: CAMO [Le等人,2019],COD10K [Fan等人,2020a] 和NC4K [Lv等人,2021]。我们遵循先前的作品 [Fan等人,2020a],它们使用CAMO和COD10K的训练集作为我们的训练集,并使用它们的测试集和NC4K作为我们的测试集。
4.3评估指标,我们利用四个广泛使用的指标来评估我们的方法,即平均绝对误差 (MAE,M) [Perazzi等人,2012],加权F度量 (Fw β) [Margolin等人,2014],结构度量 (s α) [Fan等人,2017] 和平均E-测度 (E φ) [Fan等人,2021b]。
4.4与最新技术的比较定量评估
表1报告了我们的方法在三个数据集上针对18个竞争对手的定量结果。很明显,在四个评估指标下,我们的方法在三个数据集上优于所有其他模型。具体来说,与第二好的JCSOD相比,我们的方法平均将s α 增加1.80%,将e φ 增加1.40%,将Fw β 增加3.55%。与第三好的C2FNet相比,我们的方法平均将s α 增加1.93%,将e φ 增加1.41%,将Fw β 增加4.28%。定性评估。图6显示了COD10K数据集的几个典型样品上不同COD方法的定性比较,涵盖了四个超类,即水生,陆生,飞行和两栖。这些结果直观地显示了该方法的优越性能。请注意,我们的方法提供了准确的伪装对象预测,并具有更精细,更完整的对象结构和边界细节。边界勘探。图7显示了我们的模型与MGL在边界相关边缘提取方面的视觉比较。可以看出,尽管MGL提出了基于复杂图模型的辅助边缘检测网络,但它仍然丢失了许多结构细节,导致预测中的边界局部化较差。事实证明,我们的方法在与对象相关的边缘信息挖掘和伪装对象预测方面具有优越的性能。
4.5消融研究
为了验证每个关键组件的有效性,我们设计了几个消融实验并在Tab中报告了结果。2.对于基线模型 (B),我们删除了所有额外的模块 (即EAM、EFM和CAM),并且仅在四个EFMs中保留1 × 1卷积以减少主干特征的通道 (fi,i = {2,3,4,5}),并使用CAM中的初始聚合操作以自上而下的方式融合多级特征。CAM的有效性。从选项卡上。2、与B模型相比,B + CAM模型提供了更好的性能。特别是,我们的模块在度量f ω β 上具有更多优势,该度量显示1.50% 的性能平均提高。边缘提示 (EAM) 的有效性。为了验证与对象相关的边缘提示的有效性,我们在EFMs中保留了初始融合操作和最终的1 × 1卷积,并删除了局部通道注意力 (LCA)。从选项卡上。如图2所示,与基线模型a相比,模型c (B + EAM + EFM w/o LCA) 实现了更好的整体性能,特别是在f ω β 方面,所有数据集的平均性能增益1.15%。因此,EAM提取的边缘先验有利于提高检测性能。
**EFM的有效性。**然后在模型c (即完整的EFM) 上添加LCA,以验证边缘提示和伪装对象特征的集成操作的有效性。正如在选项卡中可以看到的那样。如图2所示,B EAM EFM模型显示了与模型a和模型c相比的性能改进,证明了LCA和建议的EFM对最终预测的有效贡献。此外,结合设计的EAM,EFM和CAM,所提出的BGNet在所有数据集上都实现了明显的性能改进,在s α,e φ 和f ω β 方面的平均性能提高分别为1.10%,1.14% 和2.65%。EAM的输入。我们还测试一下了EAM的不同输入的有效性,例如,f1,f2和f3用于使用f5探索边缘,以帮助定位与对象相关的边缘。如选项卡所示。如图3所示,f2 + f5的组合获得了伪装物体检测的最佳性能。

总结

在本文中,我们利用边缘先验来帮助恢复对象结构并提高伪装对象检测的性能。我们提出了一个简单而有效的边界引导网络 (BGNet),其中包含边缘感知模块,边缘引导特征模块和上下文聚合模块,以探索与对象相关的边缘语义,以指导和增强COD的表示学习。通过采用边缘提示,我们的BGNet提供了准确的伪装对象预测,具有完整而精细的对象结构和边界。广泛的实验表明,我们的方法在三个基准上都优于现有的最新方法。


http://www.ppmy.cn/news/821914.html

相关文章

地磁场与磁力计

地磁场与磁力计(电子罗盘,指南针)的使用 1. 地磁场介绍 主要围绕 matlab里的地磁场 模型(World Magnetic Model)来介绍。 该模型的输入为:经度,纬度,高度,年份 输出为&…

磁学基础 永久磁铁的磁力线分布

永久磁铁的磁力线分布http://www.bjlink.com/article.php?id75 北京盈科宏业科技有限责任公司 / 2011-07-21 [ 大] [ 中] [ 小] 日期:2011-1-3 摘自:  阅读:381 1.单块磁铁的磁力线分布 2.附近有铁磁性物体时单块磁铁的磁力线分布 3.两块磁铁不…

磁感应强度B,磁通量φ,磁场强度H,磁导率,磁链讲透了

磁感应强度B,磁通量φ,磁场强度H,磁导率,磁链讲透了。内容来自南京航空航天大学周洁敏教授《开关电源中的磁性材料》。 1. 磁感应强度单位长度导线,均匀磁场,单位电流,所受到的力 2. 均匀磁场…

Android小白开发注意事项

1.设置第三方依赖包 2.第一次加载编译 3.apk打包 这个签名文件的密码在app级别的build.gradle里面 然后下一步选你要打的环境的包,release是发行包,一个给别人安装打这个,debug是调试包,会比release包大,并且会有点卡一…

前端权限校验(以Vue2为例)

前端权限校验是一种在前端代码中进行权限验证的方法,用于保护系统资源和数据的安全性。它可以确保只有具有合适权限的用户才能访问受限资源。 路由级别权限控制:通过在前端路由中配置权限信息,可以控制用户能够访问的页面。在访问每个页面之…

Web3 智能合约通过数组方式存储更多学生数据

之前的文章 Web3 在Truffle项目中编写出自己的第一个solidity智能合约带大家写了一个相对捡漏的智能合约 这样 每次 我们set 后 都会将原来的数据覆盖掉了 那么 有些人可能会想 那我们弄个数组 将新的数据全部加到数组里不就行了吗? 这个想法其实就很不错 我们可以…

基于 TFHE 的 MPC

参考文献: [Can01] Canetti R. Universally composable security: A new paradigm for cryptographic protocols[C]//Proceedings 42nd IEEE Symposium on Foundations of Computer Science. IEEE, 2001: 136-145.[Gol04] Oded Goldreich. Foundations of Cryptogr…

微讲师微课录屏工具升级啦

http://www.weijiangshi.cn 新增加了视频云平台,可以把录制的视频一键微信分享给好友在线查看。并且还可以开启直播模式,把上课授课视频直接分享给其他学生在线学习。