AERIS

东京大学，理研以及上海交大提出一套名为AERIS的全新自监督学习方法。训练阶段仅需在网络中简单插入一个超分辨率模块，既可在不改变inference结构以及过程的前提下，显著提高现有网络应对尺度变化的能力。自监督超分用于目标检测，一种简单提高网络应对尺度变化

还在为图像和目标的尺度变化所困扰？快来试试以分辨率为线索自监督训练现有网络应对不同尺度的鲁棒性。ECCV2022上，东京大学，理研以及上海交大提出一套名为AERIS的全新自监督学习方法。训练阶段仅需在网络中简单插入一个超分辨率模块，既可在不改变inference结构以及过程的前提下，显著提高现有网络应对尺度变化的能力。现有的目标检测网络大部分包括Encoder以及Decoder两部分。Encoder将图像编码成特征再交由Decoder检测目标。

在这里，AERIS利用自监督方法将Encoder编码的图像特征投入对尺度和分辨率变化不敏感的流型，从而在对现有网络结构做最小调整的前提下，提高网络应对不同尺度的能力。具体来说，在训练阶段，图像在输入Encoder前，先被降至分辨至不同尺度的低分辨率。一个超分辨（super resolution）模块试图将相应的特征恢复成原图，这个过程将强迫Encoder将图像投射进对分辨率以及尺度不变的流形空间，从而直接赋予了网络应对不同分辨率的能力。在这里，超分模块可以使用任意的现成超分网络结构。仅仅需修改二十行代码，本方法即轻易提高目标检测在不同降质因素上的鲁棒性能力。

代码开源：https://github.com/cuiziteng/ECCV_AERIS

论文链接：https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136690465.pdf

现有的深度网络模型普遍受困与尺度以及分辨率变化。如下图1所示，高分辨率图像如右图保留更多细节信息，有利于小目标检测，却易于丢失了高层语义信息，使得右下图的大型交通标志被丢失。低分辨率的右图却正好相反。为了平衡尺度问题，现有网络在提取图像特征时候，往往使用金字塔结FPN构或者如HR Net设计多个Encoder来应对不同尺度。

图1 目标检测的尺度变化问题

相比神经网络，人类的视觉系统具备大小恒常性。如图2右图所示，前后两个人明明占据的像素面积显著不同，人类却可以轻而易举在左图中准确判断两者的实际大小。本次的研究目标即为赋予神经网络相同的恒常性。

图2.人类视觉大小恒常性

我们的研究起点来自于所谓的爱丽丝梦游仙境综合症 (Alice in Wonderland Syndrome，AiWS) 。该症状好发于儿童，表现为：长时间观察一种事物，会突然像爱丽丝漫游仙境一样，周围的事物忽然变大，或者忽然变小。这个名字来源于Lewis Carroll的爱丽丝梦游奇境(Alice's Adventures in Wonderland)，爱丽丝喝了神奇药水之后会变小，吃了蛋糕后却变得极为巨大乃至得通过吃两种不同的蘑菇来协调脖子与身体的比例。一些学者认为这是身为数学家的Lewis Carroll数学中不变性结构的隐喻。

图3 尺度变化中的爱丽丝

PS；爱丽丝漫游奇境中由于“时间“的缺席，帽匠、兔子与睡鼠只能不停绕着桌子变换位置的下午茶，给作者小时候带来了无数次噩梦。所以在牛津访问的时候，特意拜访了Lewis Carroll所在的Christ Church学院，并在学院的食堂里多拿一份菜以做报复，下图为学院对面的爱丽丝小店。

图4 牛津的Alice in Wonderland 小店

在这里，我们第一次提出，使用分辨率作为自监督学习的线索。具体来说如下图所示，训练原始图为x，我们通过公式1将它随机downsample成爹分辨率图像t(x)。

大部分目标检测，无论是CNN结构如CenterNet或者Transformer结构，如DETR，一般可以抽象为Encoder Decoder的结构。Encoder E负责将图片编码到一个低维的向量E(t(x))。Decoder Do随后从低维中向量推断目标信息。如果我们能使得E提取的特征向量保留住与降采样率s,噪音n,卷积核k等无关的结构，这个网络就自然拥有类似人一样的大小恒常性。

图5 方法示意图

基于[4]的假设，如果能从Encoder编码的不同大小的爱丽丝t(x)中恢复Transformation信息乃至原始图像x，那么可以认为这个Encoder是将图x投影到了一个对不同分辨率以及其他降采样特性不变的流型空间。

为了将低分辨率低特征恢复回原始的高分辨率图像x，我们很自然的加入了一个超分super resolution模块。这个模块的设计得意于盲超分技术的最新发展。以往的超分技术是将已知降采样参数的低分辨率图像恢复成高分辨率图像。考虑到真实世界的应用中，具体的Degradation参数往往不得而知，blind super resolution 技术致力于将未知参数的I恢复成高分辨率图像。站在这些研究的基础上，我们设计了我们的超分Decoder Dr来恢复x.

具体的 Loss定义为

当Encoder被训练好之后，我们在Inference阶段就可以和通常一样，正常编码以及交给Decoder解码出目标信息。总结来说，只有训练的时候得用到略笨重的超分模块，Inference阶段不用任何变动。试验