半监督语义分割_paper reading part2

news/2024/11/20 0:31:55/

03 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

在这里插入图片描述
Time:2021.05
在这里插入图片描述
我们提出了SegFormer,一个简单,高效而强大的语义分割框架,它将transformer与轻量级多层感知器(MLP)解码器统一起来。SegFormer有两个吸引人的特点:1)SegFormer包括一个新颖的层次结构变压器编码器,输出多尺度特征。它不需要位置编码,从而避免了位置编码的插值,从而导致测试分辨率与训练分辨率不同时性能下降。2) SegFormer避免了复杂的解码器。所提出的MLP解码器聚合来自不同层的信息,从而结合局部注意力和全局注意力来呈现强大的表示。我们表明,这种简单和轻量级的设计是变压器上有效分割的关键。我们扩大了我们的方法,获得了从SegFormer-B0到SegFormer-B5的一系列模型,达到了比以前的模型更好的性能和效率。例如,SegFormer-B4在ADE20K上采用64M参数实现了50.3%的mIoU,比之前的最佳方法缩小了5倍,提高了2.2%。我们的最佳模型SegFormer-B5在cityscape验证集上达到84.0% mIoU,并在cityscape - c上表现出出色的零镜头鲁棒性。代码将在github.com/NVlabs/SegFormer发布。

03.1 Introduction

在这里插入图片描述

03.2 Method

在这里插入图片描述
没有手工制作和计算要求高的模块。如图2所示,SegFormer由两个主要模块组成:(1)一个分层Transformer编码器,用于生成高分辨率粗特征和低分辨率细特征;(2)一个轻量级的All-MLP解码器来融合这些多层次的特征,以产生最终的语义分割掩码。

在这里插入图片描述
Effective Receptive Field Analysis.
在语义分割中,保持较大的接受域以包含上下文信息一直是一个核心问题[5,19,20]。在这里,我们使用有效接受域(ERF)[70]作为工具箱来可视化和解释为什么我们的MLP解码器设计在变形金刚上如此有效。在图3中,我们可视化了DeepLabv3+和SegFormer的四个编码器阶段和解码器头的erf。我们可以观察到以下几点:

  • DeepLabv3+的ERF即使在最深的阶段-4也相对较小。
  • SegFormer的编码器自然地产生局部注意,这些注意类似于较低阶段的卷积,同时能够输出高度非局部注意,有效地捕获阶段4的上下文。
  • 如图3的放大补丁所示,MLP头部(蓝框)的ERF与阶段4(红框)不同,除了非局部注意外,其局部注意明显更强。

03.3 experiment

03.3.1 Ablation studies 涉及模型尺寸,编码器和解码器设计。

在这里插入图片描述
模型大小的影响我们首先分析了增加编码器尺寸对性能和模型效率的影响。图1显示了ADE20K的性能与模型效率作为编码器尺寸的函数,表1a总结了三个数据集的结果。这里首先要观察的是解码器与编码器的大小。如图所示,对于轻量级模型,解码器只有0.4M参数。对于MiT-B5编码器,解码器只需要模型中参数总数的4%。在性能方面,我们可以观察到,总的来说,增加编码器的大小会在所有数据集上产生一致的改进。我们的轻量级模型SegFormer-BO紧凑高效,同时保持了具有竞争力的性能,这表明我们的方法非常方便于实时应用。另一方面,我们最大的模型SegFormer-B5在所有三个数据集上都达到了最先进的结果,显示了我们Transformer编码器的潜力。

C,影响MLP解码器的信道维数我们现在分析信道维度C在MLP解码器中的影响,参见第3.2节。在表1b中,我们展示了性能、flop和参数作为这个维度的函数。我们可以观察到,设置C = 256提供了非常有竞争力的性能和计算成本。性能随着C的增加而增加;然而,这会导致更大且效率更低的模型。有趣的是,当信道维度大于768时,这种性能趋于稳定。鉴于这些结果,我们选择C = 256的实时模型SegFormer-B0, B1和C =768的其余部分。

表1c显示了本实验的结果。如图所示,对于给定的分辨率,我们使用Mix-FFN的方法明显优于使用位置编码。此外,我们的方法对测试分辨率的差异不太敏感:当使用具有较低分辨率的位置编码时,精度下降3.3%。相比之下,当我们使用所提出的Mix-FFN时,性能下降仅为0.7%。从这些结果中,我们可以得出结论,使用所提出的Mix-FFN比使用位置编码产生更好、更健壮的编码器。

有效的接受野评估。在第3.2节中,我们认为与其他CNN模型相比,我们的MLP解码器受益于变形金刚具有更大的有效接受域。为了量化这种效果,在这个实验中,我们比较了我们的mlp解码器与基于cnn的编码器(如ResNet或ResNeXt)使用时的性能。如表1d所示,耦合我们的mlp解码器与基于cnn的编码器相比,与所提出的变压器编码器耦合产生的精度显著降低。直观地说,由于CNN的接受域比Transformer小(参见3.2节中的分析),mlp解码器不足以进行全局推理。相比之下,将我们的Transformer编码器与MLP解码器耦合可以获得最佳性能。此外,对于Transformer编码器,需要将低级局部特征和高级非局部特征结合起来,而不是只有高级特征。

03.3.2 Comparison to state of the art methods on ADE20K and Cityscapes.

在这里插入图片描述
我们现在将我们的结果与ADE20K[72]、cityscape[71]和COCO-Stuff[73]数据集上的现有方法进行比较。ADE20K和cityscape: 表2总结了我们的结果,包括参数、FLOPS、延迟和ADE20K和cityscape的准确性。在表格的顶部,我们报告了实时方法,其中包括最先进的方法和使用MiT-BO轻量级编码器的结果。在底部部分,我们关注性能,并报告使用更强编码器的方法和相关工作的结果。

如图所示,在ADE20K上,SegFormer-B0仅使用3.8M参数和8.4G FLOPs就产生37.4%的mIoU,在参数、FLOPs和延迟方面优于所有其他实时对手。例如,与DeeplabV3+ (MobileNetV2)相比,SegFormer-BO是7.4 FPS,速度更快,mIoU保持3.4%。此外,segprevious - b5优于所有其他方法,包括之前最好的SETR,并建立了51.8%的新技术,比SETR高出1.6% mIoU,同时效率显著提高。

如表2所示,我们的结果也适用于城市景观。SegFormer-B0输出15.2 FPS和76.2% mIoU(输入图像的短边为1024),与DeeplabV3+相比,mIoU提高了1.3%,速度提高了2倍。此外,当输入图像的短边为512时,SegFormer-B0的帧率为47.6 FPS, mIoU的产量为71.9%17.3 FPS,比ICNet好4.2%。SegFormer-B5存档了84.0%的最佳IoU,至少优于所有现有的方法1.8% mIoU,运行速度比SETR[7]快5倍,体积小4倍。

03.3.3

在这里插入图片描述
在城市景观测试集中,我们遵循公共设置[20],并将验证图像合并到训练集,并使用Imagenet-1K预训练和Mapillary views报告结果[76]。如表3所述,仅使用城市景观精细数据和Imagenet-1K预训练,我们的方法获得了82.2%的mIoU,优于所有其他方法,包括使用ImageNet-22K预训练和额外的城市景观粗数据的SETR。使用Mapillary预训练,我们获得了83.1% mIoU的最新结果。图4显示了城市景观的定性结果,其中SegFormer提供了比SETR更好的细节,比DeeplabV3+更平滑的预测。
在这里插入图片描述
图4:城市景观的定性结果。与SETR相比,我们的SegFormer在对象边界附近预测了更精细的细节。与DeeplabV3+相比,SegFormer减少了远程误差,如红色所示。最好在屏幕上观看。

03.3.4

在这里插入图片描述
COCO-Stuff。最后,我们在完整的COCO-Stuff数据集上评估SegFormer。为了进行比较,由于现有方法无法在此数据集上提供结果,我们重新生成了最具代表性的方法,如DeeplabV3+、OCRNet和SETR。在这种情况下,该数据集上的失败与报告的ADE20K相同。如表4所示,SegFormer-B5达到46.7% mIoU,参数只有84.7M,为0.9%比SETR小4倍。综上所述,这些结果证明了SegFormer的优越性在语义分割的准确性,计算成本和模型大小方面。

03.3.5

在这里插入图片描述
为此,我们遵循[77]并生成cityscape - c,它扩展了城市景观验证集,包含16种算法生成的噪声、模糊、天气和数字类别的损坏。我们将我们的方法与DeeplabV3+的变体和[77]中报道的其他方法进行了比较。本实验结果汇总如表5所示。

我们的方法明显优于以前的方法,对高斯噪声的相对改善高达588%,对雪天的相对改善高达295%。结果表明SegFormer具有很强的鲁棒性,我们预计它将使鲁棒性非常重要的安全关键应用程序受益。

03.4 Conclusion

在本文中,我们提出了SegFormer,一种简单、干净但功能强大的语义分割方法,它包含一个无位置编码的分层Transformer编码器和一个轻量级的AllMLP解码器。该方法避免了以往方法中常见的复杂设计,效率和性能都很高。SegFormer不仅在通用数据集上实现了最新的结果,而且还显示出强大的零拍鲁棒性。我们希望我们的方法可以作为一个坚实的基线语义分割和激励进一步的研究。一个限制是,尽管我们最小3.7M参数模型比已知的CNN模型要小,不清楚在只有100k内存的边缘器件芯片上是否能很好地工作。我们把它留给以后的工作。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

04 Segment Anything

在这里插入图片描述
Time: 2023.04
在这里插入图片描述
图1:我们的目标是通过引入三个相互连接的组件来构建一个分割的基础模型:一个提示分割任务,一个分割模型(SAM),它为数据注释提供动力,并通过提示工程实现零镜头传输到一系列任务,以及一个用于收集SA-1B的数据引擎,我们超过10亿个掩码的数据集。

在这里插入图片描述

我们介绍了Segment Anything (SA)项目:一个用于图像分割的新任务、模型和数据集。在数据收集循环中使用我们的高效模型,我们构建了迄今为止(到目前为止)最大的分割数据集,在1100万张许可和隐私尊重的图像上拥有超过I亿个掩码。该模型被设计和训练为可提示的,因此它可以将零拍摄转移到新的图像分布和任务。我们评估了它在许多任务上的能力,发现它的零镜头表现令人印象深刻——经常与之前的完全监督结果竞争,甚至更好。我们在https://segment-anything.com上发布了分段任意模型(SAM)和对应的IB掩模和11M图像数据集(SA-1B),以促进对计算机视觉基础模型的研究。

在这里插入图片描述

图2:来自我们新引入的数据集SA-1B的覆盖掩模示例图像。SA-1B包含11M个不同的、高分辨率的、授权的和隐私保护的图像和1.1个高质量的分割掩码。这些面具是由SAM自动标注的,我们通过人工评分和大量实验验证,它们是高质量和多样性的。我们根据每个图像的蒙版数量对图像进行分组,以实现可视化(平均每个图像大约有100个蒙版)。

在这里插入图片描述
图4:分段任意模型(SAM)概述一个重量级图像编码器输出一个图像嵌入,然后可以通过各种输入提示有效地查询,以平摊实时速度生成对象掩码。对于对应于多个对象的模糊提示,SAM可以输出多个有效掩码和相关的置信度分数。

在这里插入图片描述
面具的属性在图5中,我们绘制了SA-1B中对象中心的空间分布,与最大的现有分割数据集进行了比较。所有数据集中都存在常见的摄影师偏见。我们观察到SA-1B相比于两个分布最相似的数据集LVIS vl[44]和ADE20K[117]具有更大的图像角落覆盖率,而COCO[66]和Open Images V5[60]具有更突出的中心偏向。在图6(图例)中,我们通过大小来比较这些数据集。SA-1B比第二大的Open images多出11倍的图像和400倍的掩码。平均而言,它每个图像的遮罩比Open Images多36倍。在这方面最接近的数据集ADE20K,每张图像的掩码仍然少3.5倍。图6(左)为掩模环绕图像分布图。接下来,我们看看图6(中间)中图像相对掩码大小(掩码面积除以图像面积的平方根)。正如预期的那样,由于我们的数据集每张图像有更多的掩码,它也倾向于包括更大比例的中小型相对大小的掩码。最后,为了分析形状复杂性,我们看图6(右)中的掩模凹度(1减去掩模面积除以掩模凸包面积)。由于形状复杂性与掩码大小相关,我们通过首先从分类掩码大小中执行分层采样来控制数据集的掩码大小分布。我们观察到掩模的凹面分布与其他数据集的凹面分布大致相似。
在这里插入图片描述
在这里插入图片描述
表1:地域和收入代表性的比较。SA-1B在欧洲、亚洲和大洋洲以及中等收入国家有较高的代表性。来自非洲、拉丁美洲和加勒比以及低收入国家的图像在所有数据集中均未得到充分体现。
在这里插入图片描述
表2:SAM根据感知的性别表现、年龄组和肤色划分人们的表现。显示95%置信区间。在每个分组中,除了老年人和中年人之外,所有置信区间都重叠。
在这里插入图片描述
图9:指向23个数据集上的掩码评估。(a) SAM和最强单点分段RITM的平均欠条[92]。由于模糊性,单个面具可能与地面真相不匹配;圆圈表示SAM的3个预测中最相关的“神谕”结果。(b)注释者对掩码质量评级从1(最差)到10(最好)的每个数据集的比较。所有方法都使用地面真相掩蔽中心作为提示。(c, d)不同点数的mou。SAM以1分的成绩显著优于之前的交互式分段器,并与更多的分数持平。在1点处的低绝对mloU是歧义的结果。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
SAM可以使用简单而细致的文本提示。当SAM不能做出正确的预测时,额外的点提示可以提供帮助。

Ablation

在这里插入图片描述
图13:数据引擎阶段、图像编码器缩放和训练数据缩放的消融研究。(左)每个数据引擎阶段都会对我们的23个数据集套件进行改进,只使用自动数据(我们的默认值)进行训练,产生的结果与使用所有三个阶段的数据相似。(中)SAM使用约10%的SA-1B和完整的SA-1B进行训练。我们默认使用所有11M张图像进行训练,但使用1M张图像是一个合理的实际设置。(右)缩放SAM的图像编码器显示有意义的,但饱和增益。然而,在某些设置下,更小的图像编码器可能是首选。

05 SegGPT: Segmenting Everything In Context

在这里插入图片描述
time: 2023.04

在这里插入图片描述
图1:SegGPT仅使用一个模型就能分割上下文中的所有内容,该模型使用上下文内的示例来指示不同的任务。对于每个示例,左边的橙色框□(红色)显示示例/提示图像及其对应的掩码,而右边的蓝色框□(蓝色)显示输入图像和由此产生的掩码输出。掩模表示附着在图像上的明亮区域。每个示例的标题(在黄色框中)仅用于解释。值得注意的是,SegGPT可以执行任意对象分割(分割场景的不同组件,如大红色球体、所有球体、所有球体的轮廓、顶部表面和阴影)、多部分分割(标志性的自由女神像的专门部分)、彩虹分割、训练中没有视频的视频对象分割,以及具有可学习提示调准的近集语义分割。图5中显示了更多的示例。

在这里插入图片描述
在这里插入图片描述
我们提出了SegGPT,一个用于分割上下文中所有内容的通才模型。我们将各种分割任务统一到一个通用性的上下文学习框架中,通过将不同类型的分割数据转换为相同格式的图像来适应不同类型的分割数据。SegGPT的训练被表述为每个数据样本的随机颜色映射的上下文着色问题。目标是根据上下文完成不同的任务,而不是依赖于特定的颜色。经过训练后,SegGPT可以在图像中执行任意分割任务,或者通过上下文推理,比如对象实例、素材、部件、轮廓和文本。SegGPT在广泛的任务上进行评估,包括少镜头语义分割、视频对象分割、语义分割和泛视分割。我们的结果表明,无论是定性还是定量,在分割域内和域外目标方面都有很强的能力。
在这里插入图片描述
图2:SegGPT整体训练框架的说明。我们将不同的分割数据,包括部分、语义、实例、全景、人、医学图像和航空图像分割,并将其转换为相同的图像格式。我们生成动态共享相似上下文的上下文内样本,例如,每列中显示的重叠颜色,它们表示相同的类别或相同的实例。我们采用了一个通用的Painter[46]框架,以上下文着色为训练目标,并采用随机着色方案,使训练更加灵活和泛化。

在这里插入图片描述
我们提出的用于多例推理的上下文集成策略的说明:空间集成(上)和特征集成(下)。空间集成策略包括将多个示例图像拼接在一起,并根据输入分辨率调整它们的大小。特征集成策略将查询图像在每个注意层之后的特征进行平均,从而使查询图像聚合所有参考示例。
在这里插入图片描述
图4:不同任务规范上的上下文内调优说明。对于上下文内调优,我们冻结整个预训练的模型,只优化作为输入上下文的可学习图像张量。我们可以对特定的数据集(ADE-20K语义分割),特定的场景(你的公寓),甚至特定的角色(伯特的脸)执行上下文内的提示调优。

在这里插入图片描述
图5:更多的可视化。对于每个示例,左边的橙色框□显示示例/提示图像及其对应的掩码,而右边的蓝色框□显示输入图像和由此产生的掩码输出。蒙版通过附着在图像上的明亮区域可见。SegGPT可以执行任意对象/部分分割(立方体,黄色立方体,Ernie,十二门徒之一,地球,多个任意部分),训练中没有视频的视频对象分割,在COCO上使用可学习提示调准的土地近集实例分割。

05.2 experiment

Comparison with Specialist Methods

在这里插入图片描述
为了从直观的角度演示我们的SegGPT功能,我们使用专用的任务提示将所选图像的任务输出可视化,如图1和图5所示。这两个图包括了范围广泛的分割任务,如不同粒度的任意部分/对象分割,文本分割,训练中没有视频的视频对象分割,以及具有可学习提示调优的近集实例/语义分割。图6展示了视频对象的更多可视YouTube-VOS 2018数据集分割。从这些可视化中,SegGPT展示了在广泛的任务范围内进行高度准确预测的能力,同时在任务定义中保持超级灵活性。

在这里插入图片描述
少镜头语义分割。我们评估了SegGPT在两种少镜头语义分割设置上的性能:COCO-20/PASCAL-5上的域内和FSS-1000上的域外。表1给出了在COCo20*/PASCAL-5’上基于实例的语义分割结果。为了进行公平的比较,我们还评估了标记为*的领域内类别的专家模型。我们的结果表明,在这两个基准上,SegGPT可以实现与最近发布的最先进的专家模型相当或显著更好的性能。请注意,现有技术的FPTrans使用不同的射击分离模型。此外,SegGPT超越了通才

在这里插入图片描述

表2给出了在FSS-1000上使用域外类别进行少镜头语义分割的结果。与使用FSS-1000训练的专业模型相比,SegGPT表现出极具竞争力的性能。值得注意的是,我们的模型根本没有在FSS-1000数据集上进行训练,但仍然取得了显著的结果,证明了它的有效性。
在这里插入图片描述
SegGPT通过将第一帧及其对象掩码转换为上下文着色示例来执行视频对象分割。当测试当前帧时,我们使用它之前的K帧(如果有)来构造多个示例。这些帧的对象掩码已经被FIFO队列预测和存储。构建多个样例后,应用Feature Ensemble(章节3.2所述),并将预测结果存储到下一帧。我们在几个基准上评估了我们的模型,结果如表3所示。尽管没有经过专门的任务训练,但我们的方法与在这些数据集上训练的专家模型相比,取得了具有竞争力的结果。例如,在YouTube-VOS 2018[52]上,我们的方法明显优于特定任务方法AGAME[21]和AGSS[29]。在具有挑战性的专注于复杂场景的MOSE基准测试中,SegGPT甚至可以与最先进的方法RDE进行比较。

Ablation Study

在此,我们摒弃了两种情境整合策略,即空间整合和特征整合。结果如表4a所示。我们的研究结果表明,空间集成方法在FSS-1000数据集上表现良好,但在DAVIS 2017数据集上性能下降。我们将此归因于空间集成在示例上采用了子抽样的事实。值得注意的是,与高分辨率DAVIS数据集(640×480)相比,FSS-1000数据集的图像分辨率(224×224)较低,因此子采样不会导致FSS-1000的显著信息丢失。同时,我们观察到特征集成可以减少子采样上的信息损失,并在DAVIS 2017上获得明显更好的性能。我们还对DAVIS 2017的帧数进行了消融,如表4b所示。随着帧数的增加,性能在达到收益递减点之前会开始提高。特别地,我们观察到当使用8帧时,性能达到了最佳。

06 Fully Convolutional Adaptation Networks for Semantic Segmentation

在这里插入图片描述
时间:2018
在这里插入图片描述
深度神经网络的最新进展令人信服地证明了在大型数据集上学习视觉模型的高能力。然而,收集专家标记的数据集,特别是像素级注释是一个极其昂贵的过程。一个有吸引力的替代方案是渲染合成数据(例如,电脑游戏)并自动生成基本真相。然而,简单地将学习到的模型应用于合成图像上,由于域漂移,在真实图像上可能会产生很高的泛化误差。在本文中,我们从视觉外观级和表示级的角度来解决这个问题。前者调整源域图像,使其看起来好像是从目标域的“风格”中绘制的,后者尝试学习域不变表示。具体来说,我们提出了全卷积适应网络(FCAN),这是一种结合了外观适应网络(AAN)和表示适应网络(RAN)的新型语义分割深度架构。AAN在像素空间中学习从一个域到另一个域的转换,RAN以对抗性学习方式进行优化,以最大限度地利用学习到的源和目标表示欺骗域鉴别器。我们对GTA5(游戏视频)到cityscape(城市街景)的语义分割进行了大量的实验,与最先进的无监督适应技术相比,我们的建议获得了更好的结果。更值得注意的是,我们获得了一个新的记录:在无监督的环境下,BDDS (drivecam视频)的mloU为47.5%。
在这里插入图片描述
本文通过(a)直接应用视频游戏图像训练的FCN和(b) FCAN的域自适应对街景视频中的一个示例帧进行语义分割。
在这里插入图片描述
我们的全卷积自适应网络(FCAN)架构概述。它由两个主要部分组成:左边的外观适应网络(AAN)和右边的表示适应网络(RAN)。AAN将图像从一个域转移到另一个域,因此视觉外观趋于域不变。RAN以一种对抗的方式学习域不变表示,最大限度地用学习到的源和目标表示欺骗域鉴别器。特别设计了一个扩展的Atrous空间金字塔池化(ASPP)层,以利用不同尺度的区域来增强识别能力。RAN结合源图像的监督分割损失和对抗性损失进行了联合优化。

在这里插入图片描述
外观适应网络(AAN)的结构。给定目标图像集Xt和一个源图像xs,我们从一个白噪声图像开始,并将其调整为一个自适应图像xo,它看起来好像是从目标域绘制的,但在源图像中包含语义内容。利用预先训练好的CNN提取特征图。xs的高阶图像内容通过最小化s与o的特征映射之间的距离来保持,而目标域的风格则通过最小化xo与X的特征关联之间的距离来保持。

Experiments

表1总结了不同AAN利用方式之间的mIoU性能。总体而言,通过AAN + RAN对源域图像进行适配,mIoU达到了最高的46.21%。当直接使用FCN时,对源域或目标域或两个域的图像应用AAN的结果始终比不使用AAN(第一行)的设置表现出更好的性能
在这里插入图片描述
图4分别显示了源域和目标域图像的外观级传输的四个示例。如图所示,原始图像中的语义内容在自适应图像中都得到了很好的保留。在GTA5中以cityscape的“风格”渲染图像时,图像的整体颜色变得暗淡,颜色饱和度趋于较低。相反,当反转传输方向时,cityscape中的图像颜色变得更加明亮,饱和度也更高。结果表明在两者之间有良好的外观级转移。
在这里插入图片描述
表2详细介绍了通过在FCAN的每个阶段考虑一个域适应的因素来提高mIoU。ABN是一种缓解领域转移的通用方法,与任何领域适应框架无关。在我们的案例中,ABN成功地将mIoU性能从29.15%至35.51%。这说明ABN是一种非常有效和实用的选择。ADA、Conv和ASPP是我们RAN中的三种具体设计,性能增益分别为5.78%、1.88%和1.64%。换句话说,我们的RAN总共带来了9.3%的性能提升。结果验证了表征级自适应的思想。AAN进一步贡献了mIoU的增长1.79%, FCAN的mIoU性能最终达到46.6%。图5展示了我们的FCAN不同阶段的语义分割结果的四个例子。如图所示,随着更多的paton设计的加入,分割结果变得越来越差。例如,在早期,大多数类别如road和sky不能很好地分割。相反,在后面的步骤中,即使是自行车和卡车这样的少数类别也被很好地分割了。

在这里插入图片描述
我们比较了几种最先进的技术。域混淆30通过域混淆损失对域进行对齐,该方法经过优化以学习跨不同域的均匀分布。对抗判别域自适应31将无约束权值共享和对抗学习相结合,用于判别特征学习。FCNWild[9]采用全卷积对抗训练进行语义分割的领域适应。为了便于比较,所有方法中使用的基本FCN均来源于ResNet-101。表3总结了性能比较。与在图像级设计域鉴别器的DC和ADDA相比,在区域级进行域对抗学习的FCNWild和FCAN表现得更好
在这里插入图片描述
图6 不同方法的每类别欠条性能以及所有19个类别的mIoU性能平均值。
在这里插入图片描述
图7 语义分割结果示例和域判别器预测图,其中亮度表示区域属于目标域的高概率。
在这里插入图片描述
实践中一种常见的情况是在目标域中有少量的标记训练示例。因此,我们将FCAN扩展为半监督版本,将cityscape训练集作为标记数据x。技术上,进一步考虑目标域图像像素级分类损失,从而改变式(7)中的总体目标to maxp minp {Cadu(Xs, Xt) - λsLseg(X.)- λtCseg(X)}.表4显示了随着目标域标记训练数据的增加,mIoU的性能。值得注意的是,这里FCN是直接在目标域中的标记数据上学习的,FCAN是我们的半监督版本。正如预期的那样,如果只训练目标域中的几百张图像,FCAN的性能增益往往很大。随着城市景观图像数量的增加,增益逐渐减少。即使当数字达到1k时,我们的半监督FCAN仍然略优于监督FCN。

除了城市景观数据集,我们还以BDDS为目标域,对我们的无监督设置进行评估FCAN。表5总结了性能比较。特别是FCAN的mIoU性能达到了43.35%,比FCNWild提高了3.98%。多尺度设置,即FCAN(MS),将性能提高到45.47%。最后,融合ResNet-101、ResNet-152和SENet[11]衍生模型的集成版本FCAN(MS+EN), mmlou可提高到47.53%。图8显示了BDDS中的三个语义分割示例,分别由FCN和FCAN输出。显然,FCAN获得了更有希望的分割结果。即使在天空中有反射(第二行)或云块(第三行)的情况下,我们的FCAN也能很好地分割天空。
在这里插入图片描述

Conclution

我们提出了全卷积自适应网络(FCAN)架构,它探索了语义分割的领域自适应。具体来说,我们从视觉表象层面和表征层面的适应角度进行了研究。为了验证我们的说法,我们在我们的FCAN中分别设计了外观适应网络(AAN)和表示适应网络(RAN)。AAN是用来自另一个域的域“风格”来呈现一个域中的图像,从而在两个域之间产生不变的外观。RAN旨在以域对抗的方式指导表示学习,理想地输出域不变表示。从游戏视频(GTA5)到城市街景场景(cityscape)的转换实验验证了我们的建议和分析。更值得注意的是,在将游戏视频转换为汽车摄像头视频(BDDS)时,我们实现了新的最先进的性能。我们未来可能的工作有两个方向。首先,将在AAN中研究用另一种统计模式渲染图像语义内容的更高级技术。其次,我们将进一步将我们的FCAN扩展到其他特定的分割场景,例如室内场景分割或人像分割,在这些场景中可以很容易地产生合成数据。

07 Dense Learning based Semi-Supervised Object Detection

在这里插入图片描述
time:
在这里插入图片描述
在这里插入图片描述
图1 基于无锚的DSL与基于锚的方法STAC[38]和ISMT[48]之间的SSOD性能比较。可以观察到,基于锚点的检测器fast - rcnn[36]和基于无锚点的检测器FCOS[44]在监督设置下具有相似的基线性能,而我们提出的DSL实现了最先进的SSOD性能,大大优于现有方法。

在这里插入图片描述
图2 我们提出的基于密集学习(DSL)的SSOD方法的管道。训练数据包含有标签和无标签的图像。在每次训练迭代中,使用教师模型对弱增强无标签图像生成伪标签。在无锚检测器如FCOS[44]中,密集预测的每个空间位置将被分配一个标签,模型性能对噪声伪标签敏感。为了解决这一问题,提出了一种自适应滤波策略,将伪标签分为背景、前景和可忽略区域三种类型。此外,还存在一些假阳性案例,这些案例得分较高,但明显是错误的预测。因此,建议使用MetaNet来细化这些情况。为了提高模型的泛化能力,对未标记图像进行补丁洗牌,并对不同尺度的图像进行一致性正则化。为了提高伪标签的稳定性和质量,教师模型由学生模型通过聚合来更新,称为聚合教师。在获得细粒度像素级伪标签后,可以通过最终损失Ls、Lu和Lscale的和对探测器进行优化。

在这里插入图片描述
图3 在COCO上使用10%标记数据时TP+、TP-和BG的分布。'TP+'表示估计实例的class ID与ground-truth (GT)相同,BBox的IOU大于0.5。'TP-'表示估计实例的class ID与GT相同,但BBox的IOU小于0.5。BG’表示估计的实例属于后台或类ID错误。
在这里插入图片描述
图4 (a)估计分类-假阳性实例,其得分较高,但在类别上是明显的错误预测。(b)我们提出的用于细化实例伪标签的MetaNet。“√”和“×”表示保留和删除,回复。
在这里插入图片描述
图5 (a) EMA教师和(b)我们的聚合教师的说明。EMA老师只对参数执行聚合,而我们的Aggregated老师对参数和层都执行聚合。
在这里插入图片描述
图6 尺度间不确定性一致性正则化的说明。输入图像来自同一个未标记的图像Ui。

在这里插入图片描述

Experiments

在这里插入图片描述
表1 竞争方法在MS-CoCO数据集上的mAP性能(%)。所使用的协议为部分标记数据。+表示该方法使用更大的批大小32或40,并表示对标记的数据应用了强增强。请注意在这里插入图片描述
不是STAC[38]中的默认设置,但它们将提高监督基线和SSOD的性能。监督是指只使用相应的标记数据进行训练,并将其作为SSOD的基线。

我们将提出的DSL与现有的基于锚定检测器(如fast - rcnn[36]和SSD[29])的SOTA方法进行比较。结果如表1、2和3所示。

从表1可以看出,在COCO中部分标记数据协议的监督设置下,我们的无锚检测器实现了与基于锚的检测器相似的基线性能,即在1%、2%、5%和10%标记数据时,分别为9.53 vs. 9.05、11.71 vs. 12.70、18.74 vs. 18.47和23.7 vs. 23.86。这意味着当使用部分标记数据时,无锚和基于锚的SSOD模型具有可比性。在应用了所提出的DSL算法之后,在所有协议下的基线之上,SSOD性能都可以得到显著和一致的改进。DSL的性能大大优于所有的竞争方法,证明了我们的方法的有效性和优越性。
在这里插入图片描述
我们还遵循COCO的完全标记数据协议进行实验。结果如表2所示。由于这些监督方法在原始作品中报告的性能差异很大,我们报告了它们的结果以及它们的基线,并比较了它们的相对性能改进。从表2可以看出,我们的DSL实现了最大的性能改进,即3.6 mAP增益。对PASCAL-VOC的测试结果见表3。我们可以看到,与监督基线以及所有比较方法相比,所提出的DSL也取得了显著的性能改进。

总之,表1、表2和表3中的结果都证明了我们的DSL方法的有效性。值得一提的是,与基于锚的方法相比,所提出的DSL的前/后处理成本可以忽略不计,因此更容易在实际应用中部署,这显示了无锚SSOD算法的巨大潜在价值。

Ablation Studies

在这里插入图片描述
在这里插入图片描述
每个组成部分的有效性 DSL不同组件的贡献如表4所示。从这个表中可以看出,通过使用AF,性能可以从23.7 mAP显著提高到32.2 mAP,这已经超过了表1中所示的大多数SOTA方法。采用MetaNet对前景伪标签进行细化,性能进一步提高到32.5。通过应用AT提高伪标签的稳定性和质量,性能进一步提高到34.5 mAP。最后,通过从洗牌补丁中学习,并约束图像尺度之间的一致性,整个模型变得更加健壮,显示出更高的精度,即36.2 mAP。表4中的消融研究验证了每个模块在DSL中的有效性。
在这里插入图片描述
表5 显示了我们AF策略的消融研究。为了证明多个阈值的重要性,我们使用单阈值策略作为参考,如果实例的分数高于阈值,则将其视为前景,否则将视为背景。可以看出,单一阈值策略不能达到令人满意的性能。当阈值设置为0.2时,最好的结果只有30.7 mAP,这表明有许多实例被单个阈值错误地定义。相比之下,使用我们的多级阈值策略,即AF,性能可以显著提高:即使使用固定的T2=0.3,结果也可以提高到36.0 mAP;当每个类都使用自适应T时,可以进一步提高到36.2 mAP,显示了我们的AF策略的有效性和重要性。

AT的消融研究 从表6中可以看出,层聚合(LA)比EMA获得了更高的性能增益,因为它考虑了层间的细粒度关系,而EMA只是简单地单独聚合层参数,因此层间的关系可能会受到损害。此外,通过同时使用EMA和LA,我们的AT可以进一步提高性能到36.2 mAP。这意味着参数和层上的聚合实际上是互补的。

消融研究loss weight a 从表7可以看出,性能峰值在a=3左右。过大的权重,例如a = 4,会使模型在训练中有太多的机会使用未标记的图像,从而降低模型的稳定性。

Conclusion

在本文中,我们第一次尝试,尽我们所知,缩小SSOD和无锚检测器之间的差距,开发了一种基于DSL的SSOD方法。DSL是建立在一些新的技术,如自适应滤波,聚合教师和不确定性正则化。我们的实验表明,所提出的DSL在COCO和VOC数据集上都大大优于最先进的SSOD方法。期望我们的工作对无锚SSOD方法的进一步深入探索具有启发意义。


http://www.ppmy.cn/news/40941.html

相关文章

走进小程序【一】什么是小程序?

文章目录🌟前言🌟发展史🌟什么是[微信小程序](https://developers.weixin.qq.com/miniprogram/dev/framework/)?🌟微信小程序能做什么?🌟小程序发展前景和优势🌟写在最后&#x1f31…

linux中rpm安装包安装mysql-----配置、启动、访问服务

Mysql的下载地址 官网地址: lhttps://downloads.mysql.com/archives/community/ #----------安装Mysql依赖【perl net-tools】 yum install perl net-tools -y #----------卸载mariadb rpm -qa | grep mariadb rpm -e --nodeps mariadb-libs-5.5.60-1.el7_5.x86_64 #---------…

Python(解非线性方程和线性方程)求水力学法向深度-浪涌高度速度及互连反应器中的浓度和流体分布

非线性方程 在水力学领域遇到的非线性方程的一个例子是通过长梯形通道寻找流动的法向深度 yny_nyn​。 这样的流动深度出现在均匀流动区域,远离任何不均匀原因的影响,例如堰的上游。 法向深度 yny_nyn​ 可以通过求解以下方程获得: Q1nAR2/…

第十四届蓝桥杯大赛软件赛省赛-试题 B---01 串的熵 解题思路+完整代码

欢迎访问个人网站来查看此文章:http://www.ghost-him.com/posts/db23c395/ 问题描述 对于一个长度为 n 的 01 串 Sx1x2x3...xnS x_{1} x_{2} x_{3} ... x_{n}Sx1​x2​x3​...xn​,香农信息熵的定义为 H(S)−∑1np(xi)log2(p(xi))H(S ) − {\textstyl…

web自动化测试入门篇06 —— 元素定位进阶技巧

😏作者简介:博主是一位测试管理者,同时也是一名对外企业兼职讲师。 📡主页地址:【Austin_zhai】 🙆目的与景愿:旨在于能帮助更多的测试行业人员提升软硬技能,分享行业相关最新信息。…

场景联动设备触发消息设计思考

场景联动设备触发消息设计思考 一:数据丢失。 消息是否会发生丢失,在于以下 3 个环节: 1、生产者会不会丢消息? 2、消费者会不会丢消息? 3、队列中间件会不会丢消息? 生产者会不会丢消息?…

什么是事务,了解事务的隔离级别和传播行为

一、什么是事务? 事务(Transaction)是访问并可能更新数据库中各项数据项的一个程序执行单元(unit)。 事务由事务开始(begin transaction)和事务结束(end transaction)之间…

行为型模式-责任链模式

行为型模式-责任链模式 责任链模式(Chain of Responsibility)解决请求处理问题描述适用环境优点:缺点:违反原则:代码实现责任链模式(Chain of Responsibility) 解决请求处理问题 描述 通过将多个对象组成一条处理链来依次处理请求,从而使得请求能够被动态地转发和处…