Mask RCNN网络源码解读(Ⅰ) --- 语义分割前言与转置卷积

news/2024/11/23 5:13:12/

目录

1.什么是语义分割

2.语义分割常见的数据集格式 

3.常见的语义分割评价指标 

4.转置卷积 


1.什么是语义分割

        常见分割任务:语义分割、实例分割、全景分割

图一 原始图片
图二 语义分割
图三 实例分割

        语义分割(例如FCN网络)可以理解为一个分类任务,对每个像素进行分类。

        实例分割(例如Mask R-CNN网络)更精细一些,对于同一个类别的不同目标我们也用不同颜色来分割。

        全景分割(例如Panoptic FPN网络):语义分割 + 实例分割。

2.语义分割常见的数据集格式 

        PASCAL VOC(PNG 图片):是单通道的图像,利用调色板模式。

        详见博文:

PASCAL VOC数据集介绍icon-default.png?t=MBR7https://blog.csdn.net/qq_37541097/article/details/115787033       

        MS COCO数据集介绍:

MS COCO数据集介绍icon-default.png?t=MBR7https://blog.csdn.net/qq_37541097/article/details/113247318

3.常见的语义分割评价指标 

        Pixel Accuracy是:分子预测图像标签上所有预测正确的像素个数的总和,其分母是图像的总像素个数。

        mean Accuracy:每个类别被预测正确的像素总个数/目标像素类别i的总个数。

        mean IoU:每个类别的IoU,再对每个类别求平均。
        举一个例子:

        对于0标签:

        我们将预测正确的地方用绿色表示,预测错误的地方用红色表示。

        绿色表示预测标签为0,实际标签也为0。图中有16个。

        红色表示预测错误的,即预测为0,实际标签不为0。实际标签为1的为0个,实际标签为3的有两个.....。构建上图矩阵。最后混淆矩阵如下:

         那么我们的global_accuracy:

        针对每个类别的accuracy:

        mean_IoU:

4.转置卷积 

        起到下采样的作用。如右图:输入的特征层是2\times2的,我们通过零填充再使用转置卷积,现在的输出特征层是4\times4的。

        转置卷积的步骤如下:

        第一步:这里的s是指步长stride,这里步长为1,1-1=0。我们就不需要在特征图中填充0了。第二幅图中我们的步长stride为2,2-1=1,我们需要在特征图元素间填充1行,图三同理。

        第二步:这里的p是指内边距padding,对于图一,k-p-1=3-0-1=2,在周围填充2行2列0;对于图三,k-p-1=3-1-1=1,在周围填充1行1列0。

        对于输出特征层的宽度和高度:

        我们以一个实例进行讲解:

        这里我们输入的特征图(feature map)是2\times2的,我们使用的转置卷积是s=1,p=0,k=3的,对应的kernel如上所示:

        根据第一步:我们无需在元素间填充元素。

        根据第二步:在输入2\times2的特征图四周填充k-p-1=3-0-1=2行2列0,如左图。

        第三步:对kernel进行上下左右翻转,如中间的图,最后我们通过卷积得到了一个4\times4的一个特征图。

        现在我们对转置卷积的做法有了一定的了解,但我们为什么要这么做呢?

        看一下pytorch官方给的关于转置卷积的参数们。

        普通卷积的计算中,计算如下:

        在pytorch官方实现中,我们构建卷积核的等效矩阵。        将输入的特征图(feature map)进行展平,将等效矩阵也进行展平,即进行一个向量化:

        最后得到输出的特征矩阵:

        那么这里我们提出一个问题:已知矩阵C和矩阵O,能否求得矩阵I。换句话说,即卷积是否可逆?

        如果是通过逆矩阵计算的话是不可行的,因为只有方阵才有逆矩阵。即一般的卷积是不可逆的。

        那么我们放宽下条件,我们要得到与原始输入矩阵I相同大小尺寸的矩阵即1\times16的矩阵,很明显是可以的,只要乘以C^T即可,如下图:

        这就是转置卷积的计算过程,我们通过2 \times 2的特征层得到了一个4\times4的特征层。 

        我们接着来看一个有趣的现象:

        我们拿等效矩阵进行对应元素相乘相加:


http://www.ppmy.cn/news/10469.html

相关文章

长宁区科技小巨人培育企业奖励50万元/家

长宁区科技小巨人培育企业一、主管部门长宁区科学技术委员会二、政策依据《长宁区鼓励科技创新政策的实施办法》(长科委规〔2020〕1 号)《关于组织开展长宁区2022年度科技小巨人培育企业项目申报的通知》《长宁区2022年科技小巨人培育企业项目申报指南》…

Nginx配置负载均衡到网关

Nginx配置负载均衡到网关 1.需求图示 前置准备工作 https://blog.csdn.net/qq_44981526/article/details/128599898 2.配置实现 1.在C:\Windows\System32\drivers\etc目录下修改hosts文件 #配置llpliving.com nginx虚拟机 192.168.56.100 www.llpliving.com2.配置nginx负载…

认真学习MySQL中的那些日志文件-二进制日志(binlog)

binlog即binary log,二进制日志文件,也叫作变更日志(update log)。它记录了数据库所有执行的DDL和DML等数据库更新事件的语句,但是不包含没有修改任何数据的语句(如数据查询语句select、show等)…

前端一面react面试题解析整理

目录 redux与mobx的区别? Redux 怎么实现属性传递,介绍下原理 React中发起网络请求应该在哪个生命周期中进行?为什么? 如何解决 props 层级过深的问题 React 事件机制 如何配置 React-Router 实现路由切换 React 高阶组件、…

readme

ESP32-VSCODE环境搭建 环境安装 在Windows中安装ESP-IDF在vscode中安装Espressif IDF插件开始配置Espressif IDF插件 在vscode最上方点击:查看->命令面板,输入esp-idf:config,选择ESP-IDF:Configure ESP-IDF extension 选择EXPRESS [外链…

【C初阶】C初阶考试题

选择加编程一、选择题(一)递归(二)后置发生死循环(三)后置运算(四)操作符运算(五)全局变量与生命周期(六)操作符知识(七&a…

【Linux】进程信号

前言: 大家好呀,欢迎大家点进这篇Linux学习笔记。本篇将会着重介绍Linux中信号的相关操作,更加深刻的去理解进程和操作系统之间的关系。 我的上一篇Linux博客:【Linux】进程间通信-共享内存_柒海啦的博客-CSDN博客 让我们直接开始…

Qu artu s II 9.0 软件的使用

1.实验目的和要求本实验为验证性实验,其目的是熟悉Qu artu s II 9.0 软件的使用,学会利用Qu artu s II 9.0 软件来完成整个EDA 开发的流程。2.实验原理利用VHDL 完成电路设计后,必须借助EDA 工具中的综合器、适配器、时…