实例分割算法BlendMask

news/2024/11/17 18:26:20/

实例分割算法BlendMask

论文地址:https://arxiv.org/abs/2001.00309

github代码:https://github.com/aim-uofa/AdelaiDet

我的个人空间:我的个人空间

密集实例分割

​ 密集实例分割主要分为自上而下top-down与自下而上bottom-up两类方法:

Top-down方法

​ top-down方法主要表现为先检测后分割,先通过一些方法获得box区域,然后对区域内的像素进行mask提取,比如著名的Mask-RCNN就是top-down方法。

​ 这种模型一般有以下问题:

  1. 特征和mask之间的局部一致性会丢失
  2. 冗余的特征提取,不同的bbox会重新提取一次mask
  3. 由于使用了缩小的特征图卷积,位置信息会损失

Bottom-up方法

​ bottom-up方法将整个图进行逐像素的预测(per-pixel prediction),然后按照聚类等方法,对每个像素做embedding,最后group出不同的instance。虽然保留个更好的低层特征,但是效果一般略差于top-down方法。

​ 这种模型一般存在以下问题:

  1. 严重依赖逐像素预测的质量,容易导致非最优的分割
  2. 由于mask在低维度提取,对于复杂场景的分割能力有限
  3. 需要复杂的后处理方法

混合方法

​ BlendMask主要结合了top-down与botton-up两种思路,利用t-d方法生成实例级别的高维信息(如bbox),利用b-u方法生成per-pixel的预测进行融合。基于FCOS,融合的方法借鉴FCIS(裁剪)与YOLACT(权重加法)的思想,提出了blender模块,更好的将实例级别的全局信息与提供细节的底层特征融合。

总体思路

BlendMask整体架构

整体架构如上图所示,包含一个detector模块与BlendMask模块。detector模块直接采用的FCOS,BlendMask模块分为三部分:

  • Bottom Module:对底层特征进行处理,生成的score map称为Bases
  • Top Layer:串联在检测器的box head上,生成Base对应的top level attention
  • Blender:将Bases与attention融合

Bottom Module

​ 采用Deelpabv3+的decoder,包含两个输入,一个低层特征一个高层特征,对高层特征进行上采用后与低层特征融合输出,
DeepLabv3+结构

bottom输出的feature特征为:(N * K * H/s * W/s),N为channel,K为bases的数量,(H,W)为输入的size,s为scroe的步长。

Top Layer

​ 在检测的特征金字塔的每一层后都加了一层卷积,用来预测top-level attentions(A),输出的特征为:(N * (K*M*M)) * H_i * W_i),M*M为attention的分辨率,即对应的base的每个像素点的权重值,包含的粒度更细。

Blender

​ Blender的输入为bottom的输出B、top-level的输出attentions(A)和bbox§,该部分的融合如下:

  1. 使用RoiPooler来裁取每个bbox对应的区域,并resize成固定的RxR大小的特征图。训练时直接使用ground truth bbox作为propasals,而在推理时直接用FCOS的结果RoIPool

  2. attention的大小M是比R小的,因此需要插值,这里采用的双线性插值,从MxM变为RxR上采样/插值

  3. 接着插值完的attention进行softmax,产生一组score mapscore map

  4. 对每个r_d和对应的s_d进行逐像素的相加,最后将K个结果相加得到m_d在这里插入图片描述

​ 可视化的blender过程:
在这里插入图片描述


http://www.ppmy.cn/news/53153.html

相关文章

SQL Server 数据查询

文章目录 前言首先在SQL Server 2008 中新建一个数据库chaxun.在库中建三个表,结构如下表所示,并且录入数据.1.2.(1)在KC表中查询学分低于三分的课程信息,并按课程号升序排列(2)在XS_KC表中按学号分组汇总学生的平均分,并按平均分的降序排列(3)在XS_KC表…

第二届SWCTF部分WP

1、misc (1)Misc1 下载附件,压缩包里面有两张jpg图片 解压后习惯性的放进kali里面分析一下,没有隐藏文件 放到Stegsolve里分析,因为是两张一样的图片,combiner也没啥发现 分别对两张图片单独分析也没有发…

小家电遇冷,苏泊尔、九阳、小熊电器求变

最近几年,受懒人经济、消费者居家时间变长、“一人食”潮流兴起等多方因素的共同影响,小家电行业迅速崛起,并一度在整体萎靡的家电市场中实现了逆势增长,成为了一颗耀眼的新星。得益于此,小家电行业也迎来了一波“上市…

【PaddleNLP-kie】关键信息抽取2:UIE模型做图片信息提取全流程

文章目录 本文参考UIE理论部分step0、UIEX原始模型使用网页体验本机安装使用环境安装使用docker的环境安装快速开始 step1、UIEX模型微调(小样本学习)数据标注(label_studio)导出数据转换微调训练:评估:定制…

mysql新建,更新,删除表语句

1.建表语句 一般最简单的建表语句可包含下面4个部分,create_definition 包含列的定义,索引定义等,table_options 包含一些选项如engine 是innodb还是myISAM等,CHARACTER指定字符集等选项,partition_options 是涉及到表…

minigpt4搭建过程记录,简单体验图文识别乐趣

引言 从3月开始,aigc进入了疯狂的开端,正如4月12日无界 AI直播 在《探索 AIGC 与人类合作的无限可能》中关于梳理的时间线一样,aigc的各种产品如雨后春笋般进入了不可逆的态势,里面有句话很形象,人间一日,…

软件保护器:Themida 3.1.14 Crack

先进的Windows软件保护系统 版本:3.1 版本:3.1.4.0 日期:2022 年 11 月 10 日 概述 在创建应用程序时,Compiler 会将应用程序源代码编译成多个由机器语言代码构成的目标文件。然后将目标文件链接在一起以创建最终的可执行文件。 与…

【笔试】备战秋招,每日一题|20230415携程研发岗笔试

前言 最近碰到一个专门制作大厂真题模拟题的网站 codefun2000,最近一直在上面刷题。今天来进行2023.04.15携程研发岗笔试,整理了一下自己的思路和代码。 比赛地址 A. 找到you 题意: 给定一个仅包含小写字母的 n n n\times n nn 的矩阵…