计算机视觉——day 90 基于级联卷积神经网络和对抗学习的显著目标检测

news/2024/10/21 9:25:36/

基于级联卷积神经网络和对抗学习的显著目标检测

  • I. INTRODUCTION
  • II. 网路架构
    • A. 基于级联卷积神经网络的生成器G
      • 全局显著性估计器 E
      • 局部显著性精炼器 R
  • B.鉴别器 D
  • Iv. 实验
    • A. 数据集和评价标准
    • B. 实验结果
  • V. 结论

I. INTRODUCTION

显著目标检测在过去的几年中受到了广泛的关注并取得了巨大的成功。要获得清晰的边界和一致的显著性仍然是一个挑战,这可以被认为是显着对象的结构信息。流行的解决方案是进行一些后处理(例如,条件随机场(CRF))来细化这些结构信息。

在本工作中,我们提出了一种新的基于级联卷积神经网络和对抗学习的显著目标检测方法(CCAL)。

综上所述,本文的主要贡献如下:

1)设计了一种新颖的显著性目标检测网络框架,该框架包含两个卷积神经网络,并以级联方式结合。它们分别关注全局显著性估计和局部显著性细化。在逐步的帮助下,检测结果逐步提高。

2)采用CGAN算法进行显著性目标检测,通过引入对抗损失隐式学习结构信息(即清晰的边界和一致的显著性)来提高性能。

3)我们在8个基准数据集上评估了所提出的方法。综合实验结果表明,该方法能够生成边界清晰、显著性一致的高质量显著图,显著优于现有方法。

II. 网路架构

image-20230513160832480

所提出的显著性目标检测模型中包含两个分量,即产生器G和判别器D,如图1所示。

A. 基于级联卷积神经网络的生成器G

全局显著性估计器 E

显著性目标检测可以看作是像素标记问题,对于显著性目标赋大值(如1),对于非显著性区域赋小值(如0)。本文借鉴了编码器-解码器网络的成功经验,构建了一个用于初始显著图估计的编码器-解码器网络(全局显著性估计器E),该网络包括编码器和解码器两部分。

具体来说,我们使用4 × 4的卷积核 和 步长为 2的卷积来代替3 × 3和stride 1的卷积和2 × 2和stride 2的pooling的组合,这是VGGNet[30]中的一个经典设置

这里,我们的编码器有n1 =8个卷积层,每一层的卷积核数分别为64、128、256、512、512、512、512、512、512。

对于解码器,它执行与编码器相反的过程,扩大特征图的大小。采用核大小为4 × 4、步幅为2的反卷积运算对特征图进行上进。此外,我们还使用跳跃连接来结合解码器的高级特征和编码器的低级特征,以促进特征学习。

最后一层是tanh激活函数。

从图1中,给定一个输入图像,e的输出是一个与输入图像大小相同的概率图,被认为是初始显著图,显著目标被突出,背景被抑制

局部显著性精炼器 R

有必要利用初始显著图提供的信息来修正这些差的估计。因此,我们设计了一种深度残差网络(称为局部显著性细化器R)进行局部显著性细化,其中输入为显著性估计器E生成的RGB图像和初始显著性图的组合,输出为优化后的显著性图作为最终的性能评估结果。

B.鉴别器 D

如上所述,给定一个输入图像I,其最终显著图X的生成过程可以表示为X = G(I)= R(I,E(I))。

生成对抗网络(GAN)中的鉴别器可以被看作是探索结构化损失函数的尝试。

因此,为了使生成器G能够很好地学习显著物的结构信息,我们设计了一个鉴别器D,它的作用是按照条件GAN (CGAN)的策略,将生成器G生成的假显著图与真实显著图(ground truth)进行区分。CGAN是GAN的条件版本。

image-20230513163032454

图2给出了不同模型配置产生的显著性目标检测结果的三个例子,直观地验证了我们的局部显著性细化器R和判别器D的优点。(e)就是本文提出的模型。

Iv. 实验

A. 数据集和评价标准

对八个标准基准数据集进行性能评价:SED1[64]、SED2[64]、ECSSD[4]、PASCAL-S[65]、HKU-IS[20]、SOD[66]、DUT-OMRON[67]和DUTS-TE[32]。

B. 实验结果

image-20230513163325281

不同显著性检测方法与我们的方法(CCAL)在各种具有挑战性的场景下的视觉比较。

V. 结论

本文提出了一种基于级联卷积神经网络和对抗学习的端到端显著性目标检测模型(CCAL)。设计了由级联cnn组成的编码器-解码器网络和深度残差网络,分别完成了全局显著性估计和局部显著性细化。采用由粗到细的级联方式,显著目标检测的性能可以逐步提高。作为一种结构化的损耗函数,识别器引入的对抗性损耗有助于CCAL更好地学习突出目标的结构信息,实验结果说明了它对提高性能的重要性。该方法无需任何后处理,即可产生准确的显著性目标检测结果。实验表明,CCAL不仅在8个基准数据集上获得了最先进的性能,而且在GPU上达到了17帧/秒的速度。


http://www.ppmy.cn/news/66106.html

相关文章

互联网已退到了悬崖边上,只有借助新的概念,才能获得新发展

从某种程度上来看,我们与其将玩家们对于元宇宙、ChatGPT的追捧看成是他们对于这些新概念的前瞻性的认知,不如说他们在互联网的机制之下的确已经无法再找到新的发展红利和机会了。   因此,在人们对于元宇宙、ChatGPT等概念火热的大背景下&am…

深度思考:在 AI 时代,你会被放大一千倍的能力是什么?

Datawhale干货 作者:艾芙,复旦大学,百姓AI教育负责人 前言 大家晚上好,我是艾芙,百姓 AI 的 AI 教育负责人。 先做一下自我介绍,我是一个在技术圈和教育圈反复横跳的斜杠中年了。大约在 5 年前&#xff0c…

STM32F10X--EXTI--外部中断/事件控制器

一、EXTI是什么? EXTI(External interrupt/event controller)—外部中断/事件控制器,管理了控制器的20 个中断/事 件线。每个中断/事件线都对应有一个边沿检测器,可以实现输入信号的上升沿检测和下降沿的 检测。EXTI 可…

【Jetpack】ViewBinding 与 DataBinding的区别

一、DataBinding DataBinding 是 2016 年的 Android Studio 2.0 版本 开始使用的 , 其作用是实现 数据模型 Model 与 视图 View 的绑定 , 该绑定是双向的绑定 ; 数据模型 Model 就是 数据类的实例对象 ; 视图 View 指的是 Xml 布局文件 ; DataBinding 就是将 数据模型实例对…

学习网络基础

1.1 什么是网络与网络发展史 网络与网络发展史是指计算机网络从产生至今的演变历程。计算机网络的发展可以追溯到20世纪60年代,当时美国国防部高级研究计划局(ARPA)开始研究一种新型的计算机通信技术,称为分组交换技术。这种技术可以将数据分成多个小块…

hive物化视图

-- 物化视图 需要事务支持的 -- 物化视图 需要事务表上创建 -- 解决create materialized view报错(表前提必须是orc): Automatic rewriting for materialized view cannot be enabled if the materialized view uses non-transactional tables ALTER table tb1111 SET TBLPROPE…

JVM-类加载机制

类的生命周期 ​ 其中类加载的过程包括了加载、验证、准备、解析、初始化五个阶段。在这五个阶段中,加载、验证、准备和初始化这四个阶段发生的顺序是确定的,而解析阶段则不一定,**它在某些情况下可以在初始化阶段之后开始,这是为…

Redis高可用系列——Set类型底层详解

文章目录 概述intsetintset 和 hashtable 的转换为什么加入了listpackhashtable 的空间开销高hashtable 的碰撞概率高intset 、listpack和hashtable的转换 概述 在讲解set结构之前,需要先说明一下set结构编码的更替,如下 在Redis7.2之前,se…