【GIS】高分辨率遥感影像智能解译

1 绪论

随着航空科技工业的不断成熟与发展，我国遥感卫星研制能力不断攀升，发射数量逐年提高，在轨运行的遥感卫星为社会生产及居民日常生活提供了巨大的支持与便利。我国目前同时在轨运行的遥感卫星数量已超过60颗，每天获取并传回的数据规模已达到PB级别。这些数据符合大数据的“4V”特征，即数量多（Volume）、产生速度快（Velocity）、种类多（Variety）和价值密度低（Value），如何从海量数据中挖掘出有价值的信息已成为亟待解决的课题。然而与遥感卫星强大的数据获取能力形成鲜明对比的是，目前对遥感信息的自动化处理能力仍较为低下，有关如何实现从遥感大数据到服务于国计民生的实用地学知识的转化的研究尚未成熟，其背后的关键技术“遥感影像的智能理解”仍旧是全世界范围内遥感领域共同面对的科学问题。

2 高分辨率遥感影像智能解译概述

二十世纪六十年代的美国地理学家首次提出了“遥感”（Remote Sensing）的概念，广义上指的是使用间接手段来获取目标状态信息的方法，在实际应用中一般指通过人造卫星或者飞机等对地球表面进行观测，并通过电磁波的传播与接收以感知目标的某些特性并加以分析的技术。遥感最大的优点在于能够在短时间内获取大范围的数据，并且能够到达人类难以抵达的地点进行观测并传回以图像或非图像形式表示的信息。根据成像方式的不同，遥感有主动式遥感和被动式遥感之分。主动式遥感以微波遥感为代表，通过主动发射电磁波并接收反射信号进行成像；被动式遥感被动地接收地物发射或者反射的电磁波，譬如可见光遥感。随着空间技术的不断进步，空间遥感活动中所使用的遥感器的工作波段已得到充分扩展，遥感成像传感器的空间分辨率也在迅速提高。我国已发射多颗高分系列卫星，具有全天时全天候监测、高精度测量和多模式成像等多项突出优势，主要技术指标达到或超过国际同类卫星水平，服务于防灾减灾、农业生产和植被监测等领域。

关于遥感影像智能解译的研究始终为适应大范围高分辨率遥感影像的特点而发展。早期由于遥感影像分辨率不高，遥感影像智能解译主要聚焦像素这一最细粒度目标，但随着影像空间分辨率的不断提升，只关注像素这一只包含较低层次的局部地物信息的特征便无法获得与人类认知更为吻合的场景级语义信息。于是遥感影像解译从像素级向对象级和场景级方向发展，通过影像分割技术得到对象，之后通过对象之间的空间关联与度量得到场景，完成从局部（像素）到对象（目标）再到全局（场景）的构建。

图1 主动式遥感与被动式遥感

图2 遥感影像智能解译核心任务的变迁

遥感影像解译的常用手段之一是遥感影像分类。在早期，遥感影像分类的基本单位为像素，一些基本的统计学习方法已经被运用在像素级别的分类中，例如支持向量机、决策树和集成学习中的随机森林等分类器。这些经典机器学习算法都是有监督的，通过大量含有标签的样本对分类器进行训练，得出具有泛化能力的模型，进而能够对测试样本进行预测。这样做的优点在于可以充分地利用先验知识，做到有选择性地决定分类类别，同时可以通过反复检验训练样本来提高分类精度；缺点在于如何划分训练与测试数据、确定何种分类系统的人为主观性太强，同时特征的标注需要耗费大量人力。具体来说，传统手工方法（hand-crafted）是人工设计的，每一步都有确定的表示，不同于神经网络的端到端（end-to-end）方法。手工特征包括底层特征与中间特征，底层特征主要指基于图像自身，通过简单操作就能得出的特征，包括光谱特征、纹理特征、形状特征及局部不变特征等，它们也是中间特征操作的基础特征。图像视频领域广为熟知的底层特征有：RGB、LAB、HSV、HOG、LBP、SIFT、SURF、SILTP（LBP改进）等，其特点是相对简单，无需学习与训练，仅需简单计算与统计。代表性方法包括归一化植被指数、Gabor纹理、形态学剖面、形态学房屋指数与Harris角点等。中层特征一指在底层特征基础上进行多特征融合处理获得的特征，主要是颜色和纹理的多样性融合，如LOMO（HSV+SILTP）等；也指特征提取方式进行改进与创新的一类特征，通常融入较为复杂的数据理论处理过程。中层特征往往比较复杂，主要体现在提取策略与融合过程。常用的中层特征编码方法包括视觉词袋模型、狄利克雷多主题模型、概率潜在语义模型和层次贝叶斯模型等。

手工特征结合有监督学习影像解译虽然一定程度上解放了目视解译的压力，但其缺点也很明显，主要体现在很多时候需要经验作为支撑，主观性过于显著；并且往往将手工特征提取和监督学习作为两个独立的阶段，使得最终得到的模型泛化性能不佳，甚至陷入局部最优解的困境。

图3 手工特征阶段的学习范式

随着大数据时代的到来，手工特征提取面对海量数据时常常显得力不从心。深度学习横空出世，以其海量数据的学习能力和高度的特征抽象能力，在遥感影像分类中表现出他者难以望其项背的显著优势。受益于大规模标注数据，深度人工神经网络能够习得有效的层次化特征表示。深度特征无需手工参与提取，也更为深入和抽象，但特征提取的过程往往无法明确，可解释性不强，并且有些时候会与人们的先验知识相悖。

图4 深度学习特征提取阶段的学习范式

近年来，知识图谱越来越多地应用在地理科学领域，知识图谱以结构化的形式描述客观世界中概念、实体及其之间的关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好的组织、管理和理解互联网海量信息的能力，日益成为大数据、人工智能时代最为主要的知识表示方式。将知识图谱与深度学习技术进行融合，能够更好地解决遥感影像智能解译、地物识别和语义分割等问题，提高深度模型的可解释性、准确率和计算效率等指标，是具有广阔前景的研究方向。

图5 遥感知识图谱的表示学习

3遥感影像智能解译的主要方向及研究进展

1 场景分类

场景分类是当下遥感影像解译的热门领域，它研究的问题是如何根据图像的内容赋予图像一个语义的类型。目前由于遥感图像的分辨率不断提高，场景分类不能只聚焦像素或个体，而要注重全局信息，关注图像整体包含的语义。由于地物并不是孤立地存在的，不同地物之间存在交叉与干扰，因此如何逾越底层特征与高层语义之间的差距成为主要的难点问题。基于深度学习的遥感影像场景分类的分类精度和效率较传统统计学习方法大大提升，在遥感信息挖掘和和现实应用中发挥巨大作用，并且对推动自动化遥感影像场景分类具有重要意义。

图6 卷积神经网络（CNN）

遥感图像的场景分类的主要流程是对输入的图像进行特征提取，然后将提取的特征输入分类器从而得到分类结果。高分辨率遥感技术的发展使图像越来越清晰，但也更容易受到噪声的干扰，所以在场景分类工作的重中之重在于如何清洗掉无用的干扰信息。根据特征的类别，遥感图像场景分类方法一般分为三大类，即基于底层特征的分类方法、基于中层特征的分类方法和基于深度特征的分类方法。在此主要介绍基于深度特征的分类方法。

深度神经网络特有的“端到端”模式能够自动化地学习并提取遥感图像的高层语义信息。早期的研究直接使用卷积神经网络（CNN）进行，将数据增广和迁移学习技术应用于高分辨率遥感影像场景分类，从而解决了遥感影像数据集大量标签缺失的问题[3]。之后有研究人员将卷积层提取出的低层特征和池化层筛选出的重要特征进行组合，形成能够对高分遥感影像进行场景分类的高级语义特征[4]。目前看来，将深度学习应用于遥感影像场景分类的方法主要有以下不足：首先卷积神经网络往往规模庞大，特征维数较高，导致运算效率低下；其次基于深度学习的场景分类算法和深度模型多种多样，缺乏统一的平台进行训练集和测试集的划分以及模型评价。

2 目标识别

在遥感领域，目标识别的主要目的在于确定某一地物的类别和其所在的位置，当前基于深度神经网络的遥感影像目标识别的主要方法是借助R-CNN/Fast R-CNN/Faster R-CNN来完成的，这种方法首先通过选择性搜索算法或区域建议网络(regionproposalnetwork,RPN)提取一组建议区域,然后在建议区域内通过深度神经网络提取目标候选区域的特征,最后利用这些特征进行目标识别以及目标真实边界的回归，例如卡内基梅隆大学的Frank-Ratchye工作室使用CNN辅助图像识别创建了卫星图像的视觉搜索引擎Terrapattern。

图7 R-CNN

3 语义分割

卷积神经网络（CNN）的强大之处在于其多层结构可以自动学习到多个层次的特征：较浅的卷积层感知域较小，能学习到一些局部特征；较深的卷积层具有较大的感知域，能够学习到更加抽象的特征，这些抽象特征对物体的大小、位置和方向等敏感性更低，从而有助于识别性能的提高。然而这些抽象特征丢失了某些细节，虽然能判断某一像素属于哪一个物体，但无法进行精确的分割。为解决这一问题，加州大学伯克利分校的研究人员于2012年提出了全卷积神经网络（FCN），其已经在图像分割领域展现出了极大的优势，目前关于遥感影像语义分割的研究也主要集中在对FCN的改进与提升上。例如文献[5]提出了针对高分辨率遥感影像语义分割结果边缘不规则、不准确问题,提出了在语义分割网络的三个不同阶段下使用边缘检测任务进行约束的方法；文献[6]基于目前流行的编码器-解码器结构提出了一种多级特征聚合网络。

图8 全卷积神经网络（FCN）

4 总结与展望

高分辨率遥感作为一个快速获取大面积地物覆盖信息的方式，将在国民经济中发挥越来越重要的作用，本文以高分辨率遥感影像的智能理解为切入点，介绍了遥感影像解译的发展历程与现状，着重论述了基于深度神经网络的遥感影像场景分类、目标识别和语义分割领域的研究进展。高分辨率遥感影像地物解译面向城市建设需求，可广泛应用于城市精细化地物覆盖、城市变化分析、城市规划等领域。未来高分辨率遥感数据提取的语义将更为深层，应用的范围将更为广阔，以更好地服务于人类的日常生活。

参考文献

[1] 耿万轩. 基于高分辨率遥感影像深度特征的场景分类方法研究 [D];南京信息工程大学, 2022.

[2] 陶超,阴紫薇,朱庆,等. 遥感影像智能解译:从监督学习到自监督学习 [J].测绘学报,2021,50(8)

[3] 乔婷婷, 李鲁群. 结合数据增广和迁移学习的高分辨率遥感影像场景分类 [J].测绘通

报, 2020, (02): 37-42.

[4] 孟庆祥, 段学琳. 基于DCNN的高分辨率遥感影像场景分类 [J].华中师范大学学报(自然科学版), 2019, 53(04): 568-574.

[5] 农志铣. 顾及边缘约束的高分辨率遥感影像深度学习语义分割方法研究 [D];武汉大学, 2021.

[6] 陈冰雨. 基于编解码结构的高分辨率遥感图像语义分割算法研究 [D];南京信息工程大学, 2022.

[7] 李彦胜,张永军.耦合知识图谱和深度学习的新一代遥感影像解译范式 [J].武汉大学学报(信息科学版),2022,47(8).

[8] 邵振峰,孙悦鸣,席江波，等.智能优化学习的高空间分辨率遥感影像语义分割[J] .武汉大学学报(信息科学版),2022,47(2).

[9] 梁正印,汪西莉. 基于波段-位置自适应选择的多光谱遥感图像语义分割[J].激光与光电子学进展,2023,60(14).