Image fusion meets deep learning: A survey and perspective译文

摘要

图像融合是指从不同的源图像中提取和组合最有意义的信息，旨在生成一个更有信息量和有利于后续应用的单图像。深度学习的发展极大地推动了图像融合的发展，而神经网络强大的特征提取和重建能力使融合结果充满希望。最近，几种最新的深度学习技术使图像融合爆炸，例如生成对抗网络、自编码器等。然而，缺乏对不同融合场景的最新深度学习方法的全面审查和分析。为此，在本次调查中，我们首先介绍了图像融合的概念，并从采用的深度架构和融合场景的角度对方法进行了分类。然后，我们回顾了深度学习在各种类型的图像融合场景中的最新应用，包括数字摄影图像融合、多模态图像融合和锐化融合。随后，对特定融合任务中的一些代表性方法进行了定性和定量的评估。此外，我们简要介绍了图像融合的几种典型应用，包括摄影可视化、RGBT目标跟踪、医学诊断和遥感监测。最后，我们提供了结论，强调了图像融合的挑战，并展望了潜在的未来研究方向。

1.介绍

由于硬件设备的理论和技术限制，由单个传感器或单一拍摄设置下捕获的图像无法有效和全面地描述成像场景[1]。自然地，图像融合能够将不同源图像中的有意义的信息结合起来，生成一个包含更丰富信息的图像，更有利于后续应用。[2]由于融合图像的优良特性，图像融合作为一种图像增强方法已被广泛应用于许多领域，如摄影可视化[3]对象跟踪[4]医学诊断[5]和遥感监测[6].

在深度学习流行之前，图像融合已经得到了深入的研究。实现图像融合的早期方法采用相关的数学变换，在空间域或变换域中手动分析活动水平并设计融合规则，称为传统融合方法【7-10】。典型的传统融合方法包括基于多尺度变换的方法[11]稀疏表示方法[12]基于子空间的方法[13]基于显著性的方法[14]基于总变差的方法[15]等。然而，这些方法的局限性有

变得越来越明显。一方面，为了确保后续特征融合的可行性，传统方法被迫对不同源图像采用相同的变换来提取特征。然而，这种操作没有考虑到源图像的特征差异，这可能会导致提取的特征表达性差。另一方面，传统的特征融合策略非常粗糙，融合性能非常有限。将深度学习引入图像融合的动机是克服传统方法的这些局限性【1,16,17】。首先，基于深度学习的方法可以使用不同的网络分支来实现特征提取的差异化，从而获得更针对性的特征。其次，基于深度学习的方法可以在精心设计的损失函数指导下学习更合理的特征融合策略，从而实现自适应特征融合。得益于这些优势，深度学习在图像融合领域取得了巨大的进步，性能远远超过了传统方法。

从实现图像融合的角度来看，现有的基于深度学习的融合方法致力于解决图像融合中的一些或全部三个子问题，即特征提取、特征融合和图像重建。就采用的深度学习架构中，这些基于深度学习的融合策略可以分为基于自编码器(AE)的、基于传统卷积神经网络(CNN)的以及基于生成对抗网络(GAN)的方法。AE方法通常预训练一个自编码器，然后使用训练的自编码器实现特征提取和图像重建，同时根据传统融合规则实现中间特征融合[18]，如图1(a)所示。例如，DenseFuse[19]是著名的基于AE的方法之一，它在 MS-COCO数据集上训练编码器和解码器[20]，并采用加法和l1范数融合策略。对于CNN方法，它们通常以两种不同的形式将卷积神经网络引入图像融合中。一种是通过使用精心设计的损失函数和网络结构实现特征提取、特征融合和图像重建的端到端。[21]，如图1(b)所示。端到端CNN 方法的一种代表性工作是 PMGI[16]，提出梯度和强度的比例维护损失以指导网络直接生成融合图像。另一种是采用训练的CNN来制定融合规则，而特征提取和图像重建则使用传统方法,[22]如图所示,1(c)。例如，Liu等人。[23]采用CNN 生成融合权重，而图像分解和重建由拉普拉斯金字塔实现。GAN方法依赖于生成器和判别器之间的对抗游戏来估计目标的概率分布，可以隐式地共同完成特征提取、特征融合和图像重建，如图1(d)所示。FusionGAN 是基于 GAN 的图像融合的先驱，它建立了融合图像和可见图像之间的对抗游戏，以进一步丰富融合图像中的纹理细节。由于各种图像融合任务之间存在显著差异，这些方法在不同融合场景中的实现是不同的。因此，根据图像融合任务的类别来回顾基于深度学习的融合方法是适当的。

通常，图像融合场景可以分为三类: 根据融合目标和源图像的成像差异进行分类，如图2所示。

(i)数字摄影图像融合。由于数字成像设备的性能限制，传感器无法在单个设置下完全表征成像场景中的信息。例如，数字摄影产生的图像仅能承受有限的照明变化，并具有预定义的景深。在这个背景下，作为数字摄影图像融合的典型任务，多曝光图像融合和多焦点图像融合可以将不同设置下捕获的图像合并，以产生具有高动态范围和完全清晰度的结果。

(ii) 多模态图像融合。由于成像原理的限制，单一传感器只能捕捉场景信息的一部分。多模态图像融合结合了多个传感器获取的图像中最显著的信息，以实现对场景的有效描述。代表性的多模态图像融合任务包括红外与可见光图像融合以及医学图像融合。

(iii) 锐化融合。在保证信噪比的前提下，光谱/滤波器与瞬时视场(IFOV)之间存在一定的矛盾。换句话说，没有传感器能够同时捕捉具有高空间分辨率和高光谱分辨率的图像。锐化融合致力于融合不同空间/光谱分辨率的图像，以生成所需的高空间分辨率和高光谱分辨率的结果。典型的锐化融合包括多光谱(MS)锐化和高光谱锐化。从源图像成像的角度来看，锐化融合也属于多模态图像融合。然而，从融合目标来看，锐化融合比上述多模态图像融合要求更高的光谱/空间保真度，带来了直接的分辨率提升。因此，锐化融合被单独讨论为一个类别。

本工作的动机如下。一方面，现有的综述主要集中在特定的融合任务上，很少有工作全面回顾多个图像融合场景中的最新技术[26–30]。例如，[2]仅调查了红外与可见光图像融合方法的发展，而[31]仅提供了多焦点图像融合方法的综述。此外，这些工作更多地关注传统方法，对基于深度学习的方法的综述并不全面[32–35]。另一方面，在过去几年中，由于深度学习的推动，图像融合技术得到了爆炸性的发展，对深度融合方法的研究进入了新的阶段。然而，现有的综述[36]错过了最新的深度融合方法，如基于生成对抗网络(GAN)和基于自编码器(AE)的方法。为此，我们提出了一个全面的综述，用于最新使用深度学习在各种类型图像融合场景中的应用，这可以帮助相关研究人员和技术人员更好地理解深度融合方法当前的发展状况。这项调查的整体框架如图3所示。特别是，首先根据三种图像融合场景类别，即数字摄影图像融合、多模态图像融合和锐化融合，讨论了代表性的深度学习方法。然后，我们对每个融合任务中代表性的基于深度学习的方法进行了简要评估。随后，介绍了图像融合的一些典型应用，即摄影可视化、RGBT，物体跟踪、医疗诊断以及遥感监测。

最后，我们总结了这项调查，并结合图像融合中存在的挑战，对未来研究提出了一些展望。

2. 方法回顾

2.1. 数码摄影图像融合

数字成像设备首先使用光学镜头捕捉反射的可见光，然后采用数字模块，如CCD和CMOS，来记录场景信息。一方面，由于光学镜头受到景深的限制，通常无法同时聚焦所有物体。另一方面，这些数字模块由于动态范围有限，无法承受过大的成像曝光差异。数字摄影图像融合是解决这些挑战的一个好方法，它结合了在不同拍摄设置下捕捉的多张图像，生成具有高动态范围的清晰图像。因此，衍生出了两种典型的数字摄影图像融合任务，即多曝光图像融合和多焦点图像融合。

2.1.1. 多曝光图像融合

成像场景中不同区域的光照变化通常很大。由于成像设备的技术限制，传感器捕获的图像通常具有非常有限的曝光动态范围[37]。换句话说，在单一拍摄设置下拍摄的图像会因为过度曝光/曝光不足而丢失场景信息。多曝光图像融合是将不同曝光度的图像的有效信息结合起来，产生具有适当曝光度和丰富成像信息的结果。实现多曝光融合的主要方法包括CNN和GAN方法。

一些CNN方法直接使用训练好的网络从不同曝光度的源图像中提取特征，然后根据特征图的显著性确定相应像素位置的重要性，以生成融合权重图[38]。最终的融合结果是根据获得的融合权重图直接对源图像进行加权生成的。值得注意的是，特征图的显著性并不一定反映源图像信息的有效性，这意味着可能会得到令人失望的结果。其他一些CNN方法直接在多曝光数据上学习，动态完成特征提取、特征融合和图像重建，这通常遵循两种技术路线。一种是选择一个曝光良好的图像作为真实图像，并用它来监督融合网络的训练[39]。然而，这种手动选择的参考图像非常主观，可能会为融合网络的学习设定上限。另一种技术路线是使用特别设计的无参考指标，如MEF-SSIM[40]，来评估融合结果的质量，以便引导网络产生曝光良好的图像[21,41,42]。就融合性能而言，基于无参考指标的方法已经产生了有希望的融合结果。由于无参考指标的合理性直接决定了网络的学习质量，问题的关键在于进一步开发用于评估融合结果的高性能无参考指标。

GAN方法将曝光条件视为一个概率分布，通过对抗性学习，使得融合图像的曝光趋于良好。接下来，构建理想的曝光分布作为逼近的目标变得重要。MEF-GAN [43] 使用MEF数据集中的标签图像作为曝光参考，这些标签图像是从多个图像融合算法的结果中选取的。如上所述，这种人为选择的真实情况并非最佳选择。GANFuse [44] 从信息组合的角度构建对抗性模型。具体来说，GANFuse认为融合图像与源图像之间的差异应该具有与另一个源图像相似的概率分布。尽管这样的对抗模型可以使融合图像尽可能多地包含源图像的信息，但假设融合图像中的信息是源图像信息的总和可能是不准确的。然而，GAN方法仍然产生了有前景的融合结果。从这个角度来看，充分利用源图像中的信息（例如，曝光条件、场景结构）来建立无监督的对抗模型可能是实现高质量多曝光融合的一个好选择。

2.2.2 医学图像融合

根据所表示的信息，医学图像可以分为结构图像和功能图像。例如，PET和SPECT图像可以描述身体代谢功能的强度，而MRI和CT图像可以反映组织的结构。绿色荧光蛋白（GFP）图像可以显示与生物活细胞分子分布相关的功能信息，而相差图像（PC）可以描述如细胞核和线粒体这样的结构信息。医学图像融合将两种不同类型的医学图像结合起来，生成一个信息更丰富的单一图像，这有助于更准确地诊断疾病。目前，实现医学图像融合的两种流行方法是CNN和GAN方法。

大多数用于医学图像融合的CNN方法只参与特征融合[22,23,70]。具体来说，这些方法通常使用预训练的卷积神经网络来测量医学图像像素的活动水平，并生成融合权重图。然后，将生成的权重图与传统的分解和重建策略（如拉普拉斯金字塔）结合起来，以实现医学图像融合。一个不容忽视的问题是，由预训练网络生成的融合权重图可能不适当，因为网络的参数并未在医学图像上进行训练。相比之下，一些其他的CNN方法基于期望的信息构建融合结果和源图像之间的损失函数，并在医学图像上精心训练网络[71,72]。训练有素的网络可以完成特征提取、特征融合和图像重建的端到端过程，与上述类型的CNN方法相比，可以实现相对更好的融合性能。

GAN方法通过对抗性学习机制同时模拟医学源图像中的显著信息[73]。例如，功能医学图像的显著信息是强度分布，而结构医学图像的显著信息是空间纹理。GFPPC-GAN[74]将GAN引入到GFP和PC图像的融合中，使用PC图像和融合图像之间的对抗性学习来加强结构信息的保留。DDcGAN[25]采用多个判别器与生成器建立对抗性游戏，使得生成器产生的融合图像可以包含功能和结构信息。基于DDcGAN，MGMDcGAN[75]引入了根据计算出的掩码的第二个对抗性游戏，以进一步增强骨密度信息的保留。总体而言，GAN方法在医学图像融合方面可以实现卓越的性能。然而，由于功能图像的像素强度远大于结构图像，纹理信息很可能被功能信息所掩盖。这一医学图像融合的特性对GAN方法提出了挑战，因为GAN的训练不平衡经常发生。

2.3. 锐化融合

锐化融合是一种有效技术，用于解决光谱分辨率和空间分辨率之间的矛盾。在空间图像的指导下，致力于在保持光谱分辨率的同时实现空间维度的超分辨率。两个典型的锐化融合任务是多光谱图像锐化和高光谱图像锐化。

2.3.1. 多光谱锐化

多光谱锐化是将具有低空间分辨率的多光谱图像（LRMS）与全色（PAN）图像融合，以产生具有高空间分辨率的多光谱图像（HRMS）。与上述图像融合任务相比，多光谱锐化需要更高的信息保真度（即，光谱、结构）。用于锐化的深度学习方法主要是CNN和GAN方法。根据学习方式，有监督模型和无监督模型之分。具体来说，有监督方法遵循Wald协议[76]对原始多光谱(MS)和全色(PAN)图像执行空间退化操作，以获得低分辨率的多光谱(LRMS)和全色(LRPAN)图像，例如低通滤波、下采样等。然后，生成的LRMS和LRPAN图像被用作输入图像，而原始的MS图像被视为参考图像。相比之下，无监督方法直接在原始的MS和PAN图像上进行训练。

生成的HRMS图像与参考图像之间的像素强度距离是监督CNN训练网络的主要约束。然而，仅在此约束下获得的融合结果常常会遭受空间结构损失[77-79]。尽管相对于

距离，

距离能更好地保护这些纹理细节，但仍然不令人满意[80,81]。为了解决这一挑战，一些方法采用新的学习策略（例如残差学习[82]，在高频域训练）和额外的损失函数（例如感知损失）来进一步增强结构的保留[83-85]。其他一些方法主张探索PAN和HRMS图像之间的空间结构关系，并利用它来指导融合结果包含更多合理的纹理细节[86,87]。无监督的CNN方法依赖于保留光谱和空间结构的损失构建。通常用于光谱保留的损失函数是空间退化后融合图像与LRMS图像之间的距离。因此，设计用于保留空间结构的损失函数是实现高质量锐化的关键。通常，空间损失定义为PAN图像与融合后的HRMS图像之间的强度/梯度距离，其中变换策略包括回归线性加权[88]、通道复制[16]等。与CNN方法相比，GAN方法采用对抗机制作为额外的约束，使融合后的HRMS图像具有更高的光谱保真度和合理的空间结构。GAN方法也可以分为两种类型：监督和无监督。典型的监督GAN方法直接使用参考图像作为对抗目标[89,90]，从而同时实现期望的光谱分布和空间结构分布的估计。因为没有一个参考目标可以同时提供理想的光谱和空间分布，所以无监督的GAN方法使用两个独立的判别器来实现光谱和结构的保留[91]，其中对抗游戏涉及的数据构建与上述无监督CNN方法类似。

在融合性能方面，当前的监督方法优于无监督方法。然而，应该注意的是，监督融合网络的性能高度依赖于成对数据的构建，这意味着监督模型在全分辨率测试中可能表现不佳。对于无监督方法，目前的主要问题是用于构建空间结构损失的假设不够合理，这限制了无监督模型的性能。

2.3.2. 超光谱锐化

与多光谱图像相比，超光谱图像具有更高的光谱分辨率和更低的空间分辨率。因此，通过将低空间分辨率的超光谱图像（LRHS）与多光谱图像或全色图像融合，可以实现超光谱锐化，从而产生高空间分辨率的超光谱图像（HRHS）。超光谱锐化的深度模型包括CNN和GAN方法。与多光谱锐化任务类似，这些方法在超光谱锐化任务中也可以分为监督和无监督方法。由于HRHS图像不可用，监督CNN方法通常在模拟数据上进行训练。更具体地说，这些方法直接使用现有的光谱响应函数（SRF）和自定义点扩散函数（PSF）对原始HS图像实施光谱退化和空间退化。

降级图像和原始的高光谱图像被构建成图像对，以在监督下学习高光谱锐化[92-95]。然而，通过模拟中的监督训练获得的这种模型可能不适合真实场景。在一些无监督的CNN方法中，尽管不需要参考图像来监督训练过程，但需要知道条件随机场(CRF)和点扩散函数(PSF)。这些方法通过空间响应函数(SRF)和PSF建立了生成的高分辨率高光谱(HRHS)图像与观察到的源图像之间的一致性关系[96-98]，从而实现对HRHS图像的有效估计。不幸的是，在大多数情况下，SRF和PSF是未知的。为了应对这一挑战，一些CNN方法结合了高光谱分解来设计耦合网络以估计SRF和PSF[99-101]，从而实现无需监督的高光谱锐化，这已经显示出有希望的性能。与上述方法不同，[98]假设HRHS和LRHS图像共享相同的光谱子空间，在这个子空间中，CNN仅用于正则化子空间系数的估计，从而生成所需的HRHS图像。与CNN方法相比，关于生成对抗网络(GAN)方法用于高光谱锐化的研究相对较少。HPGAN[102]采用3D卷积网络专注于在参考图像的监督下捕获期望的高频残差。最终的融合结果是通过将上采样的LRHS图像与学习到的高频残差相加获得的。此外，HPGAN使用已知的SRF将生成的HRHS图像退化为全色图像，从而与源PAN图像建立对抗性游戏，这进一步增强了高光谱锐化的性能。

2.4. 统一图像融合方法

一些方法具有很好的通用性，可以使用统一的框架实现各种图像融合任务。尽管这些方法的想法通常非常不同，但它们的特点是能够找到不同融合任务的共同点。特别是，U2Fusion [1] 采用弹性权重巩固（EWC）来连续训练融合网络，这可以克服跨任务学习中的灾难性遗忘问题。通过这种方式，U2Fusion为各种图像融合任务建立了一个通用模型。PMGI [16] 将各种图像融合任务建模为强度和梯度信息的提取和重建。只需根据特定任务中信息融合的趋势调整损失函数项的系数比例，就可以适应多种图像融合场景。IFCNN [17] 认为任何图像融合任务都是一个有效信息选择的问题，在这个问题中，信息有效性的评估基于像素的清晰度。类似的统一方法包括SGRFR [103]、CU-Net [104]、DIF-Net [105]、SDNet [106] 等。

3. 评估

对于上述六个图像融合任务，我们在它们各自的代表性数据集上进行了评估实验。具体来说，多曝光图像融合的测试数据来自MEF 1数据集[108]，该数据集收集了两个场景类别（室内和室外）的多曝光序列；多焦点图像融合的测试数据来自Lytro2数据集[109]，该数据集使用Lytro相机在特定视角下改变焦距深度，以获得具有不同焦点区域的数字图像；红外和可见光图像融合的测试数据来自TNO3数据集，该数据集主要描述各种与军事相关的场景；医学图像融合的测试数据来自哈佛医学院网站，该网站包括大脑半球的不同横断面；多光谱锐化测试数据来自QuickBird数据集，其中多光谱图像包含4个波段；超光谱锐化测试数据来自Cave5数据集[110]，其中超光谱图像包含31个波段。在每个图像融合任务中选择了五种代表性方法进行评估，包括基于自编码器的方法、基于卷积神经网络的方法、基于生成对抗网络的方法和统一方法。

3.1. 定性与定量评估

首先从定性和定量两个方面进行评估。在定性评估中，针对每个图像融合任务选取两个典型的可视化结果，突出显示相关区域以反映差异。在定量评估中，根据各自特点为每种融合场景选择4个流行的客观指标。定性和定量结果分别在图4-6和表1中报告。

在数字摄影图像融合中，DeepFuse [21]、GANFuse [44]、CNN [45]和MMF-Net [51]取得了相对较好的性能，这衍生出两条进一步提高深度学习性能的途径。一条是为无监督学习设计更高品质的非参考指标，另一条是构建更符合实际情况的数据以进行监督训练。可以发现，一些统一的方法如PMGI [16]和U2Fusion [1]在某些多模态图像融合任务中甚至比专门设计的方法表现得更好。这一现象表明，寻求图像融合场景的共性以建立一个通用模型是非常有前景的。在锐化融合场景中，取得更好性能的方法的共同特点是它们充分考虑了融合结果与源图像在空间或光谱维度上的关系，例如GTP-PNet [87]和GDD [96]。这一现象鼓励后续研究更加关注空间和光谱退化模型的估计。

3.2. 效率评估

对于基于深度学习的融合方法，运行效率是衡量融合性能的一个重要因素。我们统计了上述典型方法的运行时间，结果在表2中报告。可以看出，统一的PMGI [16]、基于GAN的MFF-GAN [58]、基于CNN的PNN [77]和CuCaNet [99]实现了相对较高的运行效率，这是由于它们的共同特点。具体来说，这些方法都有相对简单的网络结构，这确保了模型参数量较少。在简单的网络结构下，设计更适合任务特点的约束和优化方法可以获得准确性和效率的双重收获。这启示后续研究应更加关注图像融合任务本身的特性，而不是盲目增加神经网络的规模。

4. 应用

图像融合可以有效地整合来自不同源图像的信息，为下游任务提供更有用的输入，从而提高这些应用的性能。我们将简要介绍几个典型应用，例如摄影可视化、目标跟踪、医学诊断和遥感监测。

4.1. 摄影可视化

摄影可视化是良好地展示数字成像设备捕获结果的过程，致力于提高用户的视觉体验[111,112]。然而，数字成像设备通常具有预设的景深和有限的动态范围，这意味着设备直接输出的图像可能并非所期望的[113, 114]。图像融合技术可以结合在不同拍摄设置下捕获的图像中的有效信息，生成一个全焦点且曝光适当的图像，这大大提高了摄影质量[115,116]，如图7所示。目前，图像融合技术已被集成到一些数字成像设备中[117, 118]，包括相机、手机等。

4.2. RGBT目标跟踪

目标跟踪是在视频的后续帧中找到当前帧中定义的兴趣对象[119]。最常见的是一种单一模式跟踪，例如基于可见光模式的跟踪和基于红外光模式的跟踪。然而，由于单一模式表示的限制，这些跟踪方法并不稳健。具体来说，可见光图像的质量取决于成像环境，这意味着在夜间或光线不足的条件下，目标跟踪的性能无法保证。同样，红外图像缺乏纹理且场景立体感差，在某些情况下也不可靠。因此，衍生出了一种新的目标跟踪技术路线，即RGBT跟踪[120, 121]，它融合了红外和可见光图像中的互补信息，使目标跟踪更加稳健，如图8所示。常见的RGBT跟踪方法包括基于稀疏表示的方法[122,123]，基于图的方法[124,125]，基于相关滤波的方法[126,127]，以及基于深度学习的方法[128,129]。

不管方法的类型如何，保持融合过程中有效的目标信息是实现高质量RGBT跟踪的关键。换句话说，能够同时保留红外模态中的目标显著性和可见模态中的目标纹理细节的融合结果将使跟踪准确性更加有希望[130–132]。

4.3. 医学诊断

绝大多数的医学诊断是由计算机或医生分析医学影像得出的。不同成像方式的医学影像成像机制多样，它们对描述身体信息的侧重点也不同[26,34]。常见的医学成像方式包括计算机断层扫描（CT）[133]、磁共振成像（MRI）[134]、正电子发射断层扫描（PET）[135]、单光子发射计算机断层扫描（SPECT）[136]和超声波[137]。其中，一些成像方式侧重于描述器官和组织的结构，而其他一些则侧重于描述区域代谢强度。在这种情况下，融合不同成像方式的医学影像将大大提高诊断的准确性和效率，同时减少冗余信息并提高图像质量[138,139]，如图9所示。具体来说，一些疾病不仅会引起组织物理形态的变化，还会增加局部代谢的强度，例如肿瘤。因此，功能性和结构性医学影像的结合可以提高这些疾病的诊断准确性[140–142]。此外，医学影像融合可以促进疾病确定和病变定位的同时实现，这将大大提高诊断效率并节省后续治疗的时间。正是因为这些吸引人的优点，图像融合已经被集成到一些医学诊断设备中，以帮助前沿医疗工作者实现高质量的诊断[143]。

4.4. 遥感监测

遥感监测是指通过分析高光谱/多光谱图像来观察和调查陆地、海洋和天气[144,145]。常见的遥感监测任务包括土地覆盖分类[146]、植被检测[147]、矿物勘探[148]等。然而，光谱分辨率和空间分辨率无法同时实现。换句话说，高光谱/多光谱图像的低空间分辨率限制了遥感监测精度的进一步提高。幸运的是，锐化融合可以在保持光谱分辨率的同时增加空间分辨率[149]。因此，技术人员引入了图像融合来预处理遥感图像，极大地提高了相关监测任务的性能，如图10所示。如今，锐化融合技术已成功应用于数字地球建模和土地覆盖制图等任务，显示出良好的实用价值[149,150]。

5. 结论与展望

作为一种增强技术，图像融合在包括摄影可视化、物体识别在内的各个领域发挥了关键作用。追踪、医疗诊断和遥感监测。近年来，越来越多基于深度学习的图像融合方法被提出，以提高融合性能。为了为相关研究人员和技术人员提供有效的参考和理解，本综述全面分析了图像融合领域中最新的基于深度学习的方法。我们结合特定的图像融合场景讨论了各种方法的特点，在此过程中也提供了进一步改进的方向。此外，我们还对每个融合任务中具有代表性的方法进行了性能比较，并介绍了一些图像融合的典型应用。尽管已经为基于深度学习的图像融合做出了广泛的努力，但仍存在一些未解决的挑战。

非配准图像融合。目前，在几乎所有图像融合任务中，基于深度学习的方法都假设源图像已经预先配准[151]。然而，在现实场景中，由于视差、尺度差异等因素，多模态图像和数字摄影图像并未配准。因此，在现有深度学习方法中，沿空间像素位置的操作对于现实世界的源图像并不适用。尽管可以使用许多现成的方法[152]来预先配准源图像，但依赖于配准算法的预处理可能会导致某些限制，例如效率低下和依赖于配准精度。因此，开发非配准融合算法以隐式方式实现图像注册和融合是可取的。

不同分辨率图像融合。通常，由于传感器原理的差异，源图像的分辨率是不同的。克服分辨率差异并充分利用不同源图像中的信息以实现有效融合是一个挑战。尽管已经提出了一些方法[25,153]来解决不同分辨率图像融合的问题，但仍存在一些未解决的问题，例如采用的上采样策略和网络中的上采样位置。更重要的是，设计深度网络时，希望有机地结合超分辨率和图像融合任务的特征。

面向任务的图像融合。图像融合的初衷是为后续应用提供更有益的输入。然而，在许多图像融合任务中，现有的基于深度学习的方法在设计损失函数时并未考虑融合与后续应用之间的相关性，这通常会导致非常主观的融合结果。未来的研究可以考虑将后续任务的准确性引入融合阶段的损失函数设计中，以从决策层面指导融合过程。

实时图像融合。从应用需求的角度来看，图像融合是许多视觉任务的先驱，其性能直接影响整个任务的准确性。一些实际应用对算法的实时性能有很高的要求。然而，当前图像融合方法中的复杂变换分解和迭代优化导致运行效率较低，这限制了图像融合在一些实时任务中的应用，例如视频监控。因此，开发实时图像融合算法具有重要意义，这将使图像融合具有更广泛的应用前景。

融合质量评估。由于在大多数图像融合任务中没有真实的标准答案，因此评估融合结果的质量非常具有挑战性。因此，为图像融合领域设计具有更多表征能力的无参考指标非常重要。一方面，所提出的指标可以用来构建损失函数以指导更高质量的融合。另一方面，新设计的指标也可以公平地评估融合结果，以鼓励后续的融合研究。距离度量学习可能是融合质量评估的一个好选择。

基于以上回顾和展望，我们尚未达到图像融合的上限。非配准融合方法对真实数据更具鲁棒性；不同分辨率图像融合可以克服尺度差异；面向任务的融合方法具有更大的实用价值；实时图像融合具有更广泛的应用前景；更高质量的融合评估指标能够提高融合性能。让我们拭目以待。

CRediT 作者贡献声明

张浩：构思并设计了这项工作，执行了实验，进行了形式分析，撰写 - 原始草稿。

徐涵：为这项工作提供了有见地的建议，进行了形式分析，撰写 - 审查与编辑。

田欣：为这项工作提供了有见地的建议，撰写 - 审查与编辑。

蒋君君：为这项工作提供了有见地的建议，撰写 - 审查与编辑。

马佳怡：构思并设计了这项工作，为这项工作提供了有见地的建议，进行了形式分析，撰写 - 审查与编辑。

利益冲突声明

作者声明在本论文报告的工作中，他们没有已知的财务利益冲突或个人关系，这些可能看起来会影响本论文报告的工作。

致谢

本工作得到了中国国家自然科学基金的资助，项目编号为61773295，中国湖北省重点研发计划，项目编号为2020BAB113，以及中国湖北省自然科学基金，项目编号为2019CFA037。