超分走进真实数据

NTIRE 2019 Challenge on Real Image Super-Resolution

随着NTIRE 2019 关于真实数据进行单帧超分的比赛结束，2019 年关于超分有两个关键词，“远近数据对” 和 Raw数据：

1 人们开始通过长远焦或者远近拍摄来构建真实的超分数据，即退化模型不再是通过下采样和上采样来构建数据集或者人为进行模糊。

2 人们不再基于RGB进行单帧超分，而选择RAW数据进行超分，比较Raw数据包含更多数据信息。

代表论文：Zoom to Learn, Learn to Zoom CVPR2019

Camera Lens Super-Resolution CVPR2019

Toward Real-World Single Image Super-Resolution: A New Benchmark and A New Model

Handheld Multi-Frame Super-Resolution 2019

NTIRE 2019 Challenge on Real Image Super-Resolution: Methods and Results

个人看法：人工智能火热了这么久了，人们也开始考虑落地了，毕竟一直灌水不好。

超分作为一个很悠久的视觉问题，已经研究了很久，从传统方法到深度学习，深度学习则主要基于各种模拟退化。

今年大家开始考虑视场变化FOV才是超分需要恢复的退化，真的值得点赞。但是问题来了，从发的论文来看，重点在于如果构造数据集，其中最关键的就是如何将远近数据进行对齐。要考虑亮度变化，噪声变化，透视变换，色调变化等。在实验室环境控制这些条件尚且困难，更不用说在真实环境中了。而且不同的视场变化FOV代表不同的退化程度，模型如何去泛化。

对齐：特征点对齐，光流对齐，强度对齐，色调对齐等……一个深度学习方法又转成传统图像处理了。一些论文尝试通过STN或者一些光流网络来进行对齐。对齐问题需要各界大佬攻克了。

1 Zoom to Learn, Learn to Zoom CVPR2019 Xuaner Zhang Qifeng Chen

一个基于合成传感器数据的模型比使用8位RGB数据的模型更有效。基于真实原始传感器数据训练的模型性能则最佳。强调不对齐是消除不掉了，因此提出了一个上下文双边损失函数。RAW和对齐问题，单反变焦

论文建议在Raw数据上进行超分，这种方式尤其对于超远目标，可以获得更多细节。使用真实的传感器数据进行训练的关键障碍是缺少地面真实的高分辨率图像。该论文展示了如何通过光学变焦获取地面真实数据，并提供数据集。同时提出了一个新颖的上下文双边损失，对输入和出图像之间轻微的错误对齐是鲁棒的。另外作者证明通过RGB反采样获得生成的Raw来近似真实的Raw，效果不行。

光学变焦是图像变焦的最佳选择，可以保持较高的图像质量，但变焦镜头通常是昂贵和笨重的。而简单的数字变焦容易变得模糊。

之前的resize来模拟退化，间接降低了输入中的噪声水平。实际上，由于在曝光时间内进入光圈的光子更少，遥远物体的区域往往包含更多的噪声。另外处理的8bitRGB都是受到ISP处理的，ISP处理时为了减少高频噪声，也会丢失高频细节。

训练样本：低分辨率原始传感器数据与相应的高分辨率图像

第一种方法是通过RGB反采样并添加噪声合成低分辨率的原始传感数据。问题是这个噪声没法完全建模。其原因，传感器的噪声来源多种多样，表现为色彩的串扰以及靠近传感器表面的微几何和微光学效应。但是我们发现，一个基于合成传感器数据的模型比使用8位RGB数据的模型更有效。基于真实原始传感器数据训练的模型性能则最佳。

数据集：

SR-RAW包含用高光学变焦级别拍摄的地面真相高分辨率图像。在训练中，使用较长焦距拍摄的8位图像作为使用较短焦距拍摄的较高位(如12-14位)原始传感器图像的地面真相。（存在对齐问题，因为他们采取了不同的相机配置，导致温和的视角变化）

对齐问题：我们通过视场匹配(FOV)和几何变换对不同缩放级别的捕获图像进行对齐。

对于轻微不对齐，作者采用上下文双边损失作为目标损失函数。CX直接应用于我们的任务会产生强大的构件，因为CX没有考虑空间结构。

数据采集问题：

训练样本对：我们使用24-240毫米变焦镜头来收集不同光学变焦水平的原始图像对。采用短焦距原始传感器图像作为输入，以长焦距RGB图像作为超分辨率的GT。

多种尺度缩放问题：在实际应用中，为了提高数据采集效率，我们在每个场景的7个光学变焦设置下采集了7幅图像。来自7幅图像序列的每一对图像形成一个数据对，用于训练特定的缩放模型。

DOV（depth of field）:采用小光圈减少DOV的差异，但是无法避免。

噪声水平：其次，我们使用相同的曝光时间的所有图像在一个序列，使噪音水平不受焦距变化的影响。但是我们仍然观察到由于快门和物理光瞳是机械的并且涉及到动作变化而引起的明显的光照变化。

色调变化：是我们避免使用像素对像素损失进行训练的另一个动机。

透视变化：虽然透视不随焦距的变化而变化，但是当镜头放大或缩小时，在投影中心会有轻微的变化(镜头的长度)，在不同深度的物体之间会产生明显的透视变化。因此，我们避免捕获非常接近的对象。

对齐预处理问题：训练样本是Raw_L 与 RGB_H。首先匹配RGB_L 与 RGB_H 的视图FOV。RGB_L 是Raw_L 的输出。数据捕获过程中不可避免地会出现偏差，预处理步骤很难消除偏差。高分辨率图像中的锐边不能与低分辨率图像中的模糊边精确对齐。

总之就是不对齐问题无法消除。

2 Camera Lens Super-Resolution CVPR2019 Zhiwei Xiong

强调视场变化FOV才是超分需要恢复的退化，而不是resize。作者分别用单反和手机采集了两组数据集。分辨率损失由于扩大FoV。单反通过变焦实现长远距离得到不同的FOV，手机则通过滑轨来移动手机来获得不同的FOV。合成退化与真实退化有差距。

作者实验表明采用FOV为退化模型，效果优于下采样。

数据采集：

1 单反：变焦镜头，防止失焦模糊，作者并没有采集实际场景。作者为了训练城市场景数据，将不同的城市印在明信片上，然后通过拍摄明信片来完成数据采集。

焦距：Nikon D5500焦距从18mm到55mm, 我们将在55mm焦距下捕获的图像定义为HR地面真实值，将在18mm焦距下捕获的图像定义为LR观测值。

噪声：为了减轻噪声的影响，将ISO值设置为最低。

白平衡和孔径大小是固定的。

2 手机：安装在装有固定焦距透镜的平移台上。

一般的智能手机相机都配备了基本镜头，焦距不会改变。

色调等不对齐问题：采用软件可以手动控制ISO、白平衡、曝光时间等设置。

噪声：我们将每个场景重复捕获20次，并对得到的图像进行平均，以减轻噪声的影响。

远近距离的控制：最终的HR图像分辨率是LR图像的2.4倍

但是仍然存在问题：

空间错位：

Sift + 单映射+ RANSAC LR缺乏高频细节，因此resize对其影响不大。

强度变化：

采用均值来进行偏移对齐

颜色不匹配：

我们将颜色不匹配建模为参数非线性映射，并利用颜色棋盘将其与多项式参数进行拟合以进行校准。

3 Toward Real-World Single Image Super-Resolution: A New Benchmark and A New Model

1 我们建立了一个由不同比例因子的HR和LR图像对组成的RealSR数据集。据我们所知，它为实际的SISR模型培训和评估提供了第一个通用基准.

2 提出了一个LP-KPN模型，并在实际应用中验证了该模型的有效性

考虑到我们的RealSR数据集中退化核是空间变异的，我们提出了一种用于实际SISR的核预测网络(KPN)训练方法。

3 对齐：作者采用交替迭代的方法计算L1，涉及关照不同，crop尺寸。

4 基于拉普拉斯金字塔的核预测网络 LP-KPN

不建议端到端的学习，因为每一个像素因为深度和焦点而产生不同的失焦模糊，因此，我们建议训练一个内核预测网络(KPN)，它显式地为每个像素学习一个单独的内核。

4 Handheld Multi-Frame Super-Resolution 2019 siggraph Google Research

我们提出了一种多帧超分辨率算法，它通过合并一组原始Raw图像来代替摄像机管道中的去马赛克操作。