常用语义分割小样本模型

1.介绍

深度卷积神经网络在图像分类、目标检测、语义分割等许多视觉理解任务上都取得了重大突破。一个关键的原因是大规模数据集的可用性，比如ImageNet，这些数据集支持对深度模型的培训。然而，数据标记是昂贵的，特别是对于密集的预测任务，如语义分割和实例分割。此外，在对模型进行训练之后，很难将模型应用于新类的预测。与机器学习算法不同的是，人类只看到几个例子就能很容易地从图像中分割出一个新概念。人类和机器学习算法之间的差距激发了对小样本学习的研究，其目的是学习一个模型，可以很好地推广到具有稀缺标记的训练数据的新类别。

语义分割：给图像的每个像素点标注类别。通常认为这个类别与邻近像素类别有关，同时也和这个像素点归属的整体类别有关。利用图像分类的网络结构,可以利用不同层次的特征向量来满足判定需求。现有算法的主要区别是如何提高这些向量的分辨率，以及如何组合这些向量。

几种结构

·
全卷积网络FCN：上采样提高分割精度，不同特征向量相加。[3]

·
UNET：拼接特征向量；编码-解码结构；采用弹性形变的方式，进行数据增广；用边界加权的损失函数分离接触的细胞。[4]

·
SegNet：记录池化的位置，反池化时恢复。[3]

·
PSPNet：多尺度池化特征向量，上采样后拼接[3]

·
Deeplab：池化跨度为1，然后接带孔卷积。

·
ICNet：多分辨图像输入，综合不同网络生成结果。

小样本分割的终极目的是利用支持集中的K个训练图像对来“学习”一个模型，使得该模型能对训练图像对中出现的类别的新样本能够实现分割。

相关工作

2.1 元学习

元学习解决的是学习如何学习的问题。元学习的思想是学习「学习（训练）」过程。主要有基于记忆Memory的方法、基于预测梯度的方法、利用Attention注意力机制的方法、借鉴LSTM的方法、面向RL的Meta
Learning方法、利用WaveNet的方法、预测Loss的方法等等等。

2.2 小样本学习

小样本学习是元学习在监督学习领域的应用，Few-shot
Learning

模型大致可分为三类：Mode Based，Metric Based 和 Optimization Based。

其中 Model Based 方法旨在通过模型结构的设计快速在少量样本上更新参数，直接建立输入 x 和预测值 P 的映射函数；Metric
Based方法通过度量 batch 集中的样本和
support 集中样本的距离，借助最近邻的思想完成分类；Optimization Based方法认为普通的梯度下降方法难以在 few-shot 场景下拟合，因此通过调整优化方法来完成小样本分类的任务。

在这里插入图片描述

2.3 语义分割

语义分割就是按照“语义”给图像上目标类别中的每一点打一个标签，使得不同种类的东西在图像上被区分开来。可以理解成像素级别的分类任务。输入：（HW3）正常的图片；输出：( HWclass )可以看为图片上每个点的one-hot表示，每一个channel对应一个class,对每一个pixel位置，都有class数目个channel,每个channel的值对应那个像素属于该class的预测概率。

FCN是语义分割的开山之作，主要特色有两点：全连接层换成卷积层，不同尺度的信息融合FCN-8S,16s,32s。

U-net用于解决小样本的简单问题分割，比如医疗影片的分割。它遵循的基本原理与FCN一样：1.Encoder-Decoder结构：前半部分为多层卷积池化，不断扩大感受野，用于提取特征。后半部分上采样回复图片尺寸。2.更丰富的信息融合：如灰色剪头，更多的前后层之间的信息融合。这里是把前面层的输出和后面层concat(串联)到一起，区别于FCN的逐元素加和。不同Feature map串联到一起后，后面接卷积层，可以让卷积核在channel上自己做出选择。注意的是，在串联之前，需要把前层的feature map crop到和后层一样的大小。

SegNet和U-net在结构上其实大同小异，都是编码-解码结果。区别在于，SegNet没有直接融合不同尺度的层的信息，为了解决为止信息丢失的问题，SegNet使用了带有坐标（index）的池化。在Max pooling时，选择最大像素的同时，记录下该像素在Feature map的位置（左图）。在反池化的时候，根据记录的坐标，把最大值复原到原来对应的位置，其他的位置补零（右图）。后面的卷积可以把0的元素给填上。这样一来，就解决了由于多次池化造成的位置信息的丢失。

Deeplab V1不同于之前的思路，他的特色有两点：1.由于Pooling-Upsample会丢失位置信息而且多层上下采样开销较大，把控制感受野大小的方法化成：带孔卷积（Atrous conv）2.加入CRF(条件随机场)，利用像素之间的关连信息：相邻的像素，或者颜色相近的像素有更大的可能属于同一个class。

PSPnet：前面的不同level的信息融合都是融合浅层和后层的Feature Map,因为后层的感受野大，语义特征强，浅层的感受野小，局部特征明显且位置信息丰富。

PSPnet则使用了空间金字塔池化，得到一组感受野大小不同的feature map,将这些感受野不同的map concat到一起，完成多层次的语义特征融合。

Deeplab V2在v1的基础上做出了改进，引入了ASPP(Atrous Spatial Pyramid Pooling)的结构，如上图所示。我们注意到，Deeplab v1使用带孔卷积扩大感受野之后，没有融合不同层之间的信息。ASPP层就是为了融合不同级别的语义信息：选择不同扩张率的带孔卷积去处理Feature Map，由于感受野不同，得到的信息的Level也就不同，ASPP层把这些不同层级的feature map concat到一起，进行信息融合。

Deeplab v3在原有基础上的改动是：1.改进了ASPP模块2.引入Resnet
Block 3.丢弃CRF。新的ASPP模块：1.加入了Batch Norm 2.加入特征的全局平均池化（在扩张率很大的情况下，有效权重会变小）。全局平均池化的加入是对全局特征的强调、加强。在旧的ASPP模块中：我们以为在扩张率足够大的时候，感受野足够大，所以获得的特征倾向于全局特征。但实际上，扩张率过大的情况下，Atrous conv出现了“权值退化”的问题，感受野过大，都已近扩展到了图像外面，大多数的权重都和图像外围的zero padding进行了点乘，这样并没有获取图像中的信息。有效的权值个数很少，往往就是1。于是我们加了全局平均池化，强行利用全局信息。

Deeplab v3+可以看成是把Deeplab v3作为编码器（上半部分）。后面再进行解码，并且在解码的过程中在此运用了不同层级特征的融合。此外，在encoder部分加入了Xception的结构减少了参数量，提高运行速递。

3.方法总结分类

3.1 OSLSM

motivition就是学习一个one-shot的分割模型，首次提出双分支的网络用于few-shot segmentation，条件分支用VGG提取特征，生成权重（w，b），分割分支用FCN-32s结构对query image 进行特征提取,将其与条件分支所得参数进行点乘再通过σ函数得到分割结果。得到一个分割图，上采样到图像大小，利用某个阈值产生分割的二值图，

输出的时候，为了是参数量与分割分支的特征图的通道数相对应，采用weight hashing的策略，将输出的1000维向量映射为4097维（w:4096, b:1），这种映射机制是建模成固定权重参数的全连接层来实现的。

在这里插入图片描述

3.2 co-FCN

文章的主要比较惊奇的一点是仅对原始图像做一些稀疏的标注（目标位置上点几个关键点，背景位置上点几个关键点）就却能够实现对目标的像素级的分割。网络结构和BMVC那篇paper设置类似，也是采用双分支结构，将标注信息与原始图像concate后输入conditioning branch得到输入图像的embedding。利用segmentation branch对qurey image进行特征提取，并将结果与conditioning branch得到的embedding进行concate，再进行像素级分割。

在这里插入图片描述

3.3 AMP-2 motivation：如何得到一个更好的原型。

方法：在task流中，不断地更新每个类别地原型。

在这里插入图片描述

3.4 SG-One

训练任务的流程：

在这里插入图片描述

网络包含一个主干网络Stem（代表的是VGG-16的前3个Block）和两个分支：Guidance Branch 和 Segmentation Branch，需要注意的是两个分支共用了三个卷积块
，个人的理解是，如果两个分支完全独立，那么Guidance Branch产生的指导就会一成不变；这就失去了意义，作者在论文最后的消融实验中做了相关的分析与实验；与Segmentation Branch 产生交互后就可以在优化分割损失的同时对引导的特征图进行优化，使之匹配相应的真实mask. 网络在训练的时候加载了在ILSVRC数据集上预训练的权重。

测试任务的流程：

在这里插入图片描述

主要的创新点：

a.提出使用masked average pooling 来提取
support set 的中目标的表征向量；

b.采用余弦相似度来度量 query set 的表征向量与support
set 的表征向量之间距离，用于指导query set的分割；

为什么masked average pooling会有用？

解释如下：全卷积网络(FCN)能够保留输入图像的中每个像素相对位置；所以通过将二值mask与提取到的特征图相乘就可以完全保留目标的特征信息，排除掉背景等无关类别的特征。

3.5 PANet

创新点：

利用了prototypes上的度量学习，无参数

提出prototypes对齐正则化，充分利用support的知识

对于带有弱注释的少样本直接使用

在这里插入图片描述

用同一个backbone来提取support和query的深度特征，然后使用masked average pooling从support的特征将不同的前景物体和背景嵌入不同的prototypes中，每个prototype表示对应的类别，这样query图像的每个的像素通过参考离它的嵌入表达最近的特定类的prototype来标记，得到query的预测mask后；训练的时候，得到mask后，再将刚才提取的query feature和mask作为新的“support set”，将之前的support set作为新的“query set”，再用“support set”对“query set”做一波预测，然后再算一个loss

prototype紧凑且鲁棒的对每个语义类别进行表达；mask标记那块就是无参度量学习，通过和嵌入空间的逐像素匹配来执行分割

在这里插入图片描述