M2FNet:Multi-modal fusion network for object detection from visible and thermal infrared images
M2FNet:基于可见光与热红外图像的多模态融合目标检测网络
0.论文摘要
融合可见光(VIS)和热红外(TIR)图像的多模态信息对于在完全适应不同光照条件下的目标检测至关重要。然而,由于缺乏同时标注VIS和TIR配准图像的训练数据,现有模型通常将VIS和TIR图像视为独立信息,并通过单独的网络提取相应特征。为了填补这一空白,本文提出了一种基于Transformer架构的新型多模态融合网络(M2FNet),其中包含两个有效模块:联合模态注意力(UMA)和跨模态注意力(CMA)。UMA模块聚合了来自VIS和TIR图像的多光谱特征,然后通过卷积神经网络(CNN)骨干网络提取多模态特征。CMA模块旨在通过Transformer架构从VIS和TIR成对特征中学习跨注意力特征。通过平均精度(mAP)指标的评估结果表明,M2FNet方法显著优于仅使用VIS或TIR图像训练的基线方法,分别提高了10.71%和2.97%。与现有的多模态方法相比,M2FNet方法在两个公开数据集上的mAP增量也得到了验证。对八个光照阈值的敏感性分析表明,M2FNet方法在不同光照条件下表现出鲁棒性能,并实现了25.6%的最大精度提升。此外,该方法随后被应用于一个新的测试数据集VI2DA(可见光-红外配对视频和图像数据集),该数据集由多种传感器和平台观测,用于测试目标检测器的泛化能力。
1.引言
近年来,智能目标检测技术因其在智慧城市交通管理(Luo等,2023)、灾害搜救(Zheng等,2021)以及智能监控系统(Liang等,2022)中的巨大潜力而备受关注。它是摄影测量与遥感领域中的一个活跃研究方向,旨在基于图像或视频同时进行目标定位与实例映射(Akshatha等,2023;Ren等,2022;Jiang等,2022;Deng等,2021b)。尽管随着深度学习模型的进步,目标检测技术近年来取得了显著进展,但在实际应用中设计一个鲁棒的检测器仍然是一项具有挑战性的任务,尤其是在适应全天候、全视角和全天气条件方面(Ding等,2022;Zhao等,2019)。大多数现有的目标检测方法主要依赖于可见光(VIS)图像,但其性能对环境光照条件的变化非常敏感。然而,热红外(TIR)图像可以在任何光照条件下提供目标发出的热辐射信息。图1展示了大气传输下的多模态可见光与热红外遥感观测。可见光(0.3–0.7 μm)和热红外(8–14 μm)在大气窗口内的工作波长对于目标表面的观测非常有用。白天和夜间捕获的配对样本显示,低光照条件下捕获的可见光图像经常面临一些问题,包括亮度低、对比度不足、灰度谱受限、色彩失真、噪声水平高以及目标特征响应弱,这些问题极大地限制了基于单模态可见光图像训练的目标检测器的性能(Cheng等,2021)。热红外成像反映了受目标实例发射率(ε)影响的热辐射温度(K),并且无需光照即可获取,但它始终面临分辨率低和纹理特征少的问题。因此,为了克服这一限制,多模态信息(例如协同的可见光与热红外观测)能够为目标实例提供互补的细节,是构建在各种光照条件下更加鲁棒和有效的目标检测器的一种有前景的方法。
先前的研究表明,结合多光谱数据(例如可见光(VIS)和热红外(TIR)模态)可以提高检测精度,其中红外光谱在低光条件下起着关键作用(González等,2016;Jia等,2021;Nataprawira等,2021)。例如,基于框级分割监督学习的新框架被设计用于在多光谱图像中实现高精度和实时的行人实例检测(Cao等,2019)。Deng等(2021a)构建了一种新颖的多层融合网络(MLF-FRCNN),通过残差网络骨干(ResNet)和特征金字塔网络(FPN)从VIS和TIR通道中提取多尺度特征图,用于低光环境下的行人检测。此外,Liu等(2016)构建了不同的卷积网络(ConvNet)融合架构,利用VIS和TIR图像的多光谱特征来改进行人检测。然而,这些方法通常设计单独的网络用于多光谱特征提取,随后通过连接层融合VIS和TIR特征,并专注于处理来自街景数据集(FLIR,2019;Hwang等,2015)的水平视角VIS和TIR图像中的目标检测,这些图像与具有大视场(FOV)的航空数据相比存在差异。尽管如此,用于目标检测的航空多模态数据集目前仍处于发展阶段(Sun等,2022),其数量仍显著少于地面视角的自然场景数据集(Everingham等,2010;Geiger等,2012;Lin等,2014)。
上述方法已证明卷积神经网络(CNN)在可见光(VIS)或热红外(TIR)信息中具有强大的表征学习能力。然而,CNN从多模态数据中提取局部特征,但难以捕捉全局表征(Peng等,2021)。基于自注意力机制的Transformer架构能够捕捉长程交互和全局特征,从而增强表征学习,已广泛应用于自然语言处理和计算机视觉领域,例如著名的生成式预训练Transformer(GPT)、双向编码器表示Transformer(BERT)(Devlin等,2018)和视觉Transformer(ViT)(Dosovitskiy等,2020)。先前的研究已成功将Transformer架构应用于目标检测任务,尤其是基于自然场景的可见光图像(Carion等,2020;Zhu等,2020)。然而,Transformer架构在局部信息提取能力上不如CNN。最近的研究结合了注意力机制和CNN,以提升遥感变化检测(Shafique等,2023;Wang等,2024)和图像分类(Ji等,2023)的性能。例如,Wang等(2024)提出了一种新颖的位置感知图卷积融合网络(PGCFN),深度融合地理空间知识和深度学习方法(图注意力网络和CNN),用于城市变化检测。Ji等(2023)提出了一种高效的空间-光谱特征提取网络(PASSNet)用于高光谱图像分类,并设计了卷积和Transformer模块,以同时提取局部和全局特征。尽管这些检测方法在可见光图像上表现出色,但多模态可见光和热红外图像特征之间存在差异和互补性。基于上述考虑,有必要设计一种新颖的多模态融合网络,以处理可见光和热红外图像中的局部和全局特征,适用于复杂场景应用。
针对航空摄影测量中全天候、多角度目标检测的应用需求,开发多模态检测器和数据集已成为一项重要且紧迫的任务。因此,本文尝试提出一种新的多模态融合网络(称为M2FNet方法),该方法利用可见光(VIS)和热红外(TIR)模态在低光条件下进行航空目标检测,并包含两个有效组件以提供互补特征:UMA模块结合了VIS和TIR多光谱特征,并通过基于CNN的主干网络学习深层特征;CMA模块则设计用于从Transformer架构中学习跨注意力特征。此外,本文还提出了一个新的数据集(VI2DA)来测试目标检测器的泛化能力。所提出方法的鲁棒性和敏感性分析在多源公共数据集和VI2DA上进行了评估。本文的主要贡献可总结如下:
• 提出了一种新颖的多模态融合网络(M2FNet方法),包含UMA和CMA有效组件,用于在多种光照条件下实现精确的目标检测。该网络通过两个模块从多光谱、卷积和交叉注意力特征中融合可见光(VIS)和热红外(TIR)模态。
• 构建了由多种平台(机载、无人机和手持便携式传感器)观测的VI2DA数据集,用于测试目标检测器的泛化能力。在VI2DA和公开数据集上评估了检测器的性能以及各种影响因素(观测角度和光照条件)的敏感性分析,从而对M2FNet方法进行了深入评估。
• 在多源数据集上的定量分析和广泛实验表明,所提出的M2FNet方法在性能上优于基线单模态方法和现有的多模态目标检测算法。确定了八个光照范围阈值,以确定目标检测的最佳模态(M2FNet的VIS和TIR融合、单模态VIS和单模态TIR)。
本文的其余部分组织如下:第2节详细介绍了M2FNet方法和VI2DA数据集,并说明了用于训练和测试阶段的两个公开数据集。第3节展示了新方法与现有深度学习目标检测算法的评估结果,第4节分析并讨论了所提出方法的敏感性和应用性能。最后,第5节总结了全天候和多角度应用中多模态目标检测的结论及未来潜在的研究方向。
2.数据集与方法
2.1. 数据集与摄影测量
训练和测试阶段使用了三个多源数据集,包括两个最近发布的数据集和一个新数据集(VI2DA)。三个数据集之间的差异和优点如表1所示。三个数据集的详细信息如下所示。
DroneVehicle数据集(Sun等,2022)由DJI M200平台搭载双Zenmuse XT 2相机拍摄,共包含28,439对可见光-热红外(VIS-TIR)图像对,这些图像通过斜视和垂直角度观测,涵盖三种高度(80米、100米和120米)和四种角度(垂直角度和三种斜视角度:15°、30°和45°)。成像环境覆盖了不同场景(城市道路、农村地区、居民区、停车场和高速公路)以及多种光照条件(白天、夜晚和深夜)。此外,基于地面监控摄像头(海康威视)的低光视觉VIS-TIR配对数据集(LLVIP)(Jia等,2021)包含15,488对图像,这些图像在夜间(晚上6点至10点)从不同的城市街道场景中捕获。图2展示了两个公开数据集中VIS和TIR图像的样本对。DroneVehicle和LLVIP数据集的图像分辨率分别为640 × 512和1080 × 720。
为了通过多源和跨传感器平台进一步评估检测器的有效性和鲁棒性,本研究构建了一个新颖的可见光-红外配对视频和图像数据集(VI2DA)。与现有的多模态数据集不同,VI2DA数据集包含了来自三种遥感平台(机载、无人机和手持便携式传感器)的可见光-热红外(VIS-TIR)图像,观测角度多样(天底角、倾斜角和水平视角),覆盖了白天和夜间条件。如表2所示,GFHK-1、大疆禅思XT 2和手持便携式FLIR T1050sc被用于构建跨传感器和多角度的遥感系统。这三种传感器在光谱范围、分辨率和视场角(FOV)参数上各不相同。大疆禅思XT 2和FLIR T1050sc是灵活的仪器,可以安装在无人机或相机三脚架平台上,其热红外传感器的分辨率分别为640×512和1024×768。每台仪器都配备了一对可见光-热红外传感器,以同时采集可见光和热红外图像。同时,现代方舟60机载平台上安装了一台具有可见光/近红外(NIR)波段的广角数字航空相机,从天底角扫描地表。因此,数据采集过程基于机载-无人机-地面一体化的遥感实验。
表2 跨平台遥感实验中用于捕获多模态数据的仪器和传感器信息。
如图3所示,基于包括地面三脚架、低空无人机和机载平台在内的跨传感器平台,在不同观测高度(0–3.9公里)下获取了涵盖多种场景(如居民区、高速公路、街道和校园)的多模态图像,覆盖白天和夜间。需要注意的是,Zenmuse XT 2传感器被安置在禁飞区内的三脚架上,以便进行倾斜摄影测量。为评估所提出方法的泛化能力,创建了包含300对多模态图像的VI2DA数据集。每个平台从不同的观测视角(天底、倾斜和水平角度)各捕获100对图像。所有图像均被裁剪并调整为640×512像素的图块。该数据集仅用于本研究的测试应用,因此缺乏标注标签。随后,为了降低人工标注成本,未来的工作将首先通过基于机器学习的识别生成标签,再进行人工和视觉解释。随着图像数量的扩展和标注标签的添加,VI2DA数据集将持续更新。
图3. 多角度和复杂成像条件下,通过机载、无人机和手持平台进行的跨传感器遥感摄影测量。
2.2 方法
2.2.1 M2FNet的开发
图4展示了所提出的M2FNet框架的概述,该框架包含以下五个部分:
图4. 提出的M2FNet框架的流程图。⊕和©分别表示逐元素相加和拼接操作。PE表示位置编码。
(a) 输入数据:将来自DroneVehicle和LLVIP数据集的多模态图像(可见光和热红外图像对)及其对应的标注标签输入网络。
(b) 联合模态注意力(UMA)模块:UMA模块通过堆叠可见光通道(RGB)和热红外通道(T)来聚合多光谱特征。融合层和基于CNN的主干网络从可见光和热红外模态中学习多模态特征。然后,基于带有位置编码的多模态特征,在Transformer架构中构建自注意力模块。
© 跨模态注意力(CMA)模块:CMA模块使用自注意力和跨注意力机制从输入特征中生成并优化跨模态信息,这些输入特征是基于CNN的特征图(分别带有位置编码的可见光和热红外模态)。
(d) 评估与应用:通过多种指标(如mAP和推理时间)评估目标检测器的性能。基于多源和跨传感器数据,所提出的方法被应用于检测多种场景中的行人和车辆实例。
(e) 输出:输出分类结果C和边界框坐标 B = { b x , b y , b w , b h } B = \{b_x, b_y, b_w, b_h\} B={bx,by,bw,bh}。
2.2.2. 联合模态注意力(UMA)模块
所提出的UMA模块的概述如图5所示。从初始的配对图像 x V I S ∈ R 3 × H 0 × W 0 x_{VIS} ∈ \mathbb{R}^{3×H_0×W_0} xVIS∈R3×H0×W0和 x T I R ∈ R 3 × H 0 × W 0 x_{TIR} ∈ \mathbb{R}^{3×H_0×W_0} xTIR∈R3×H0×W0开始,分别具有三个颜色通道,通过RGB(可见光通道)和T(热红外通道)光谱阵列的多种波段集成,进行多光谱聚合处理,将TIR和VIS光谱堆叠在一起。生成以下三种类型的数据:1)仅VIS图像;2)仅TIR图像;3)融合了VIS和TIR通道的图像,分别为RGT、RBT和GBT。这表明融合图像可以初步突出感兴趣对象实例的像素区域,并保留图像中的关键纹理信息。然后,通过基于CNN的主干网络(ResNet)(He et al., 2016)生成多模态特征图(包括 F V I S ∈ R C × H × W F_{VIS} ∈ \mathbb{R}^{C×H×W} FVIS∈RC×H×W、 F T I R ∈ R C × H × W F_{TIR} ∈ \mathbb{R}^{C×H×W} FTIR∈RC×H×W、 F G B T ∈ R C × H × W F_{GBT} ∈ \mathbb{R}^{C×H×W} FGBT∈RC×H×W、 F R B T ∈ R C × H × W F_{RBT} ∈ \mathbb{R}^{C×H×W} FRBT∈RC×H×W和 F R G T ∈ R C × H × W F_{RGT} ∈ \mathbb{R}^{C×H×W} FRGT∈RC×H×W),其中特征维度 C = 2048 C = 2048 C=2048,高度和宽度 H 、 W = H 0 / 32 、 W 0 / 32 H、W = H_0/32、W_0/32 H、W=H0/32、W0/32。从 F V I S ∈ R C × H × W F_{VIS} ∈ \mathbb{R}^{C×H×W} FVIS∈RC×H×W和 F T I R ∈ R C × H × W F_{TIR} ∈ \mathbb{R}^{C×H×W} FTIR∈RC×H×W获得的融合特征 F C A T ∈ R 2 C × H × W F_{CAT} ∈ \mathbb{R}^{2C×H×W} FCAT∈R2C×H×W计算如下:
其中,concat(⋅) 是连接操作符,用于将来自可见光(VIS)和热红外(TIR)模态的特征通道进行拼接。经过一个 1 × 1 卷积层后,这些高层激活图的通道维度从 C C C 或 2 C 2C 2C 减少到较小的维度 d d d,其中 d = 256 d = 256 d=256。
然后, f G B T ∈ R d × H × W f_{GBT} ∈ \mathbb{R}^{d×H×W} fGBT∈Rd×H×W、 f R B T ∈ R d × H × W f_{RBT} ∈ \mathbb{R}^{d×H×W} fRBT∈Rd×H×W、 f R G T ∈ R d × H × W f_{RGT} ∈ \mathbb{R}^{d×H×W} fRGT∈Rd×H×W 和 f C A T ∈ R d × H × W f_{CAT} ∈ \mathbb{R}^{d×H×W} fCAT∈Rd×H×W 被展平为 d × H W d × HW d×HW 的特征图。因此,这些带有位置编码的源序列 ( f i f_i fi) 将传递到 Transformer 编码器架构(Vaswani 等,2017),该架构通过自注意力模块迭代更新 f G B T f_{GBT} fGBT、 f R B T f_{RBT} fRBT、 f R G T f_{RGT} fRGT 和 f C A T f_{CAT} fCAT。以 f G B T f_{GBT} fGBT 模态为例,可以表示为:
其中, φ s a ( ⋅ ) φ_{sa}(⋅) φsa(⋅) 是自注意力函数, f G B T p = f G B T + f p f^p_{GBT} = f_{GBT} + f_p fGBTp=fGBT+fp,下标 p p p 表示位置编码,缩放因子 d k d_k dk 等于特征维度。注意, f G B T p f^p_{GBT} fGBTp 和 f G B T f_{GBT} fGBT 分别通过一个线性投影层。 h h h 个独立注意力头的输出随后被拼接并通过线性变换转换为指定维度,结果记为 f G B T ʹ f^ʹ_{GBT} fGBTʹ。Add & Norm 模块由残差连接(He 等,2016)、Dropout(Srivastava 等,2014)和层归一化(Ba 等,2016)组成。第一个 Add & Norm 模块以 f G B T ʹ f^ʹ_{GBT} fGBTʹ 和 f G B T f_{GBT} fGBT作为输入,其计算方式为:
其中,默认的 dropout 率设置为 0.1。然后,Transformer 中的前馈网络(FFN)包含线性层、dropout 和 ReLU 激活函数。在 FFN 层之后还有一个 Add & Norm 模块。其余模态也按照上述过程进行计算。因此, f ~ G B T \tilde{f}_{GBT} f~GBT、 f ~ R B T \tilde{f}_{RBT} f~RBT f ~ R G T \tilde{f}_{RGT} f~RGT 和 f ~ C A T \tilde{f}_{CAT} f~CAT分别从 f G B T f_{GBT} fGBT、 f R B T f_{RBT} fRBT、 f R G T f_{RGT} fRGT 和 f C A T f_{CAT} fCAT 更新而来。最后,这些更新后的特征 f ~ i \tilde{f}_i f~i和对象查询( q i q_i qi)通过自注意力和交叉注意力模块转换为 Transformer 解码器架构。解码器中的自注意力块与编码器中的类似,并随后进行残差连接和层归一化。交叉注意力以编码器输出 f ~ i \tilde{f}_i f~i和 f ~ i p \tilde{f}^p_i f~ip)和带有位置编码的对象查询 q ~ i p \tilde{q}_i^p q~ip作为输入,使用多头注意力模块来更新这些嵌入。
2.2.3. 跨模态注意力(CMA)模块
提出的跨模态注意力(CMA)编码器模块(如图6所示)旨在通过多头自注意力和跨模态注意力机制与多模态特征进行交互。由基于CNN的主干网络生成的高层激活图 F V I S F_{VIS} FVIS和 F T I R F_{TIR} FTIR经过1×1卷积层以减少通道维度,然后压缩到通道维度,分别表示为 f V I S ∈ R d × H W f_{VIS} ∈ \mathbb{R}^{d×HW} fVIS∈Rd×HW和 f T I R ∈ R d × H W f_{TIR} ∈ \mathbb{R}^{d×HW} fTIR∈Rd×HW。CMA模块中的自注意力机制与UMA编码器模块中的公式(2)(3)类似,所有模块中多头注意力的头数h设置为16。随后 f ~ V I S \tilde{f}_{VIS} f~VIS 和 f ~ T I R \tilde{f}_{TIR} f~TIR分别从 f V I S f_{VIS} fVIS和 f T I R f_{TIR} fTIR更新得到。多头跨模态注意力模块根据衡 f ~ V I S p \tilde{f}^p_{VIS} f~VISp和 f ~ T I R p \tilde{f}^p_{TIR} f~TIRp对兼容性的注意力权重自适应地聚合多模态信息,这些权重通过以下公式计算:
其中 f ~ V I S p \tilde{f}^p_{VIS} f~VISp和 f ~ T I R p \tilde{f}^p_{TIR} f~TIRp分别是 f V I S f_{VIS} fVIS和 f T I R f_{TIR} fTIR 添加了位置编码后的结果。多头注意力机制(Vaswani 等,2017)使得 CMA 模块能够同时处理来自 VIS 和 TIR 多模态表示子空间的不同位置的信息。然后,通过融合层将跨模态特征聚合为联合特征表示 f C M A f_{CMA} fCMA,其计算方式与公式(1)相同。此外 f ~ C M A \tilde{f}_{CMA} f~CMA是通过多头自注意力模块从 f C M A f_{CMA} fCMA 更新得到的。最后,CMA 模块的输出嵌入 f ~ C M A \tilde{f}_{CMA} f~CMA)将作为输入传递给 Transformer 模块。
在预测模块中,本文遵循了DEtection TRansformer(DETR)(Carion等,2020)的设计,该设计以其在MS COCO目标检测数据集(包含大型自然图像)上的卓越准确性以及消除对手工设计组件的需求而闻名(Zhu等,2020)。Transformer解码器的每个输出嵌入都通过FFN层,该层预测类别标签C和归一化的中心边界框坐标 b n o r m = { b x c , b y c , b w c , b h c } b_{norm} = \{b_{x_c}, b_{y_c}, b_{w_c}, b_{h_c}\} bnorm={bxc,byc,bwc,bhc}。边界框回归使用Rezatofighi等(2019)提出的广义交并比(GIoU)作为评估指标和损失函数。采用mAP指标来衡量目标检测器的准确性性能,分别表示为mAP@0.5、mAP@0.75和mAP@0.5:0.95,对应于不同的IoU阈值。
3.实验
3.1 实现细节
为了验证所提出的M2FNet方法的有效性和鲁棒性,我们在上述三个数据集上进行了广泛的实验和应用。训练集、验证集和测试集的划分如表3所示。对于DroneVehicle数据集,训练集、验证集和测试集的比例大约为12:1:6。在LLVIP数据集中,训练集与验证集的比例约为4:1。这两个公开数据集分别专注于车辆和行人检测任务。此外,VI2DA数据集包含了来自不同平台的多角度图像,被用作车辆和行人实例的测试数据,以评估目标检测器的泛化能力。需要注意的是,所有模型均在训练集和验证集上进行训练,并在测试集上使用标准指标进行评估。
在训练策略方面,优化器采用了Adam-W(Loshchilov和Hutter,2017),权重衰减为 1 0 − 4 10^{-4} 10−4。主干网络和Transformer的初始学习率分别为 1 0 − 5 10^{-5} 10−5和 1 0 − 4 10^{-4} 10−4。基于Transformer的DETR(Carion等,2020)被选为使用可见光(VIS)或热红外(TIR)模态训练的基础网络架构。此外,新的M2FNet方法从配对的VIS和TIR图像中提取了五种类型的特征( f G B T f_{GBT} fGBT、 f R B T f_{RBT} fRBT、 f R G T f_{RGT} fRGT、 f C A T f_{CAT} fCAT和 f C M A f_{CMA} fCMA)。在DroneVehicle数据集中,训练单模态和多模态方法分别需要分配约13 GB和20 GB的GPU内存。因此,具有 f C A T f_{CAT} fCAT和 f C M A f_{CMA} fCMA特征的模型在4块NVIDIA GeForce RTX 3090 24 GB GPU上进行训练,其他模型则在4块NVIDIA Tesla P100 16 GB GPU上进行训练。每个训练阶段包含200个epoch,全局批量大小为2。新的M2FNet方法与单模态基线方法和现有的多模态方法进行了比较。
3.2. 准确性分析及与单模态和多模态方法的比较
3.2.1. 与单模态方法的比较
基于DroneVehicle数据集,本节重点评估了通过UMA和CMA组件训练的五种多模态特征(分别记为GBT、RBT、RGT、CAT和CMA模型)所提出的M2FNet方法的准确性,并与不包含UMA和CMA组件的单模态方法(分别记为VIS模型和TIR模型)进行了对比。M2FNet方法与单模态方法的mAP分数列于表4中,多模态模型与单模态模型(VIS模型和TIR模型)之间的mAP差异分别以( d i f f v i s diff_{vis} diffvis, d i f f t i r diff_{tir} difftir)的形式在括号中给出。此外,图7展示了训练阶段每个epoch中相应指标分数的验证细节,并在图中标明了最大mAP值(Epoch, m A P m a x mAP_{max} mAPmax)。所有模型均在一致的实验数据集(DroneVehicle训练和验证子集)和超参数下进行训练。
在DroneVehicle验证子集上对单模态和多模态模型进行准确性评估与比较。最佳和次佳mAP分数分别以高亮和下划线标注。
精度评估结果表明,所提出的M2FNet方法相较于VIS和TIR模型表现出更高的性能。总体而言,M2FNet方法计算的mAP分数分别从0.04%增加到19.81%,最终达到76.79%(mAP@0.5)、54.64%(mAP@0.75)和47.58%(mAP@0.5:0.95)。具体来说,嵌入跨模态注意力特征( f C M A f_{CMA} fCMA)的CMA模型(M2FNet与CMA模块结合)获得了最高的mAP分数,其mAP@0.5分数在第183个epoch时接近76.79%,显著高于VIS模型(即第151个epoch时的66.08%)。紧随其后的是CAT模型(M2FNet与UMA模块结合),该模型在骨干网络中使用多模态融合层来拼接VIS和TIR模态的特征( f C A T f_{CAT} fCAT),其mAP@0.5分数在第185个epoch时达到峰值76.64%。此外,通过UMA模块训练的多模态特征( f G B T f_{GBT} fGBT、 f R B T f_{RBT} fRBT和 f R G T f_{RGT} fRGT)的GBT、RBT和RGT模型在该目标检测任务中有效提高了精度。这些模型计算的最高mAP@0.5分数为75.17%,相较于VIS和TIR模型分别提高了9.09%和1.35%。然而,与TIR模型相比,M2FNet方法的mAP分数提升并不十分显著,因为在低光条件下,上述多模态特征的信息主要来自TIR图像,这使得TIR模型在此类条件下已经取得了良好的性能(Cao等,2019;Jia等,2021;Nataprawira等,2021)。
总之,与单模态方法相比,M2FNet方法通过使用UMA和CMA模块显著提高了准确性,其中CMA模型(即带有CMA模块的M2FNet)表现最佳,这表明M2FNet方法中CMA模块提取的跨模态注意力特征在多模态目标检测任务中是有效的。
3.2.2. 与其他多模态方法的比较
如表5所示,M2FNet方法的检测结果还与现有的五种多模态方法进行了比较:不确定性感知跨模态车辆检测框架(UACMDet)(Sun等,2022)、跨模态知识蒸馏(CKD)(Li等,2023)、局部自适应光照驱动输入级融合模块(LAIIFusion)(Wu等,2023)、冗余信息抑制网络(RISNet)(Wang等,2022)以及双流特征对齐检测器(TSFADet)(Yuan等,2022)。这些多模态方法均使用相同的DroneVehicle训练子集进行训练,并在DroneVehicle验证或测试子集的不同组合上进行评估。使用UA-CMDet在DroneVehicle数据集上获得的官方准确率(mAP@0.5为64.01%)被作为比较基准。研究发现,M2FNet方法分别比UACMDet、LAIIFusion、RISNet和TSFADet方法高出7.5%、5.3%、5.1%和3.7%,这表明新方法在目标检测方面取得了显著提升。
3.3. 与另一目标检测数据集的广泛对比
此外,为了验证M2FNet方法的泛化能力,采用了另一个包含更多行人实例的数据集LLVIP(Jia等,2021)来评估M2FNet方法与一些现有方法的性能。如表6所示,与SOTA方法(Redmon和Farhadi,2018;Jia等,2021;Ultralytics Co.Ltd,2020;Ren等,2017;Sun等,2022)相比,M2FNet方法在96.9%的检测性能上达到了先进水平。具体而言,与单模态方法相比,M2FNet方法的提升幅度在2.3%到11%之间。然而,与多模态UA-CMDet方法相比,mAP分数仅略有增加(0.6%)。这种高性能但增幅较小的原因可能是,地面监控摄像头拍摄的高分辨率热红外图像中行人实例具有明显且相似的特征。在这种情况下,使用可见光和热红外两种模态来检测行人实例,多模态方法的性能达到了高精度并趋于饱和状态。
在LLVIP验证子集上与单模态和多模态方法的比较。最佳和次佳mAP分数分别以高亮和下划线标注。
总体而言,通过在多源数据集上对M2FNet方法与现有方法(单模态和多模态方法)进行一系列评估实验,结果表明,配备UMA和CMA模块的M2FNet方法优于这些方法,并在DroneVehicle和LLVIP验证子集上分别达到了76.8%和96.9%的mAP@0.5指标最高性能。
4.讨论
4.1 对灵活照明条件的影响
在应用任务中,考虑了多种光照条件,以比较单模态方法与M2FNet方法在灵活环境下的性能。使用VIS图像的亮度指数(Morgand和Tamaazousti,2014)来指定DroneVehicle测试子集中的光照量。根据每张VIS图像的亮度区间,光照条件被分为从黑夜到白天的八个等级: [ I m i n − 20 ) 、 [ 20 – 40 ) 、 [ 40 – 60 ) 、 [ 60 – 80 ) 、 [ 80 – 100 ) 、 [ 100 – 120 ) 、 [ 120 – 140 ) 、 [ 140 , I m a x ] ,其中 I m i n = 0 , I m a x = 210 [I_{min} - 20)、[20–40)、[40–60)、[60–80)、[80–100)、[100–120)、[120–140)、[140, I_{max}],其中I_{min} = 0,I_{max} = 210 [Imin−20)、[20–40)、[40–60)、[60–80)、[80–100)、[100–120)、[120–140)、[140,Imax],其中Imin=0,Imax=210。如图8所示,DroneVehicle数据集中有对应八种光照条件的示例图像。亮度值低于80的图像可归类为夜间的低光条件。相比之下,亮度值高于80的图像具有更好的光照条件。具体而言,在 [ 100 , 140 ) [100, 140) [100,140)的亮度范围内,存在一些夜间有明亮灯光的VIS图像;而在 [ 140 , I m a x ] [140, I_{max}] [140,Imax]的亮度范围内,部分VIS图像受到雾天的影响,配对的TIR图像也受到噪声的干扰,这为空中车辆检测带来了巨大挑战。
图8. 八种光照条件级别及对应的多模态可见光(VIS)和热红外(TIR)图像。
M2FNet方法与单模态方法在八种光照条件下的mAP@0.5得分如表7所示。总体而言,M2FNet方法在大多数不同光照条件下表现最佳。
表7 VIS模型、TIR模型和M2FNet在DroneVehicle测试子集上八种光照条件下的mAP得分。三种模型在不同光照条件下的最佳mAP得分分别被突出显示。
在本研究中,前四个光照等级被定义为低光条件,M2FNet方法的mAP分数从60-80光照条件下的68.1%稳步增长到20光照条件下的71.5%。特别是在黑暗光照条件下,与VIS模型相比,M2FNet方法显著提高了25.6%。对于单模态方法,TIR模型在相应的光照条件下也表现出类似的增长趋势,并在黑暗光照条件下达到最高性能,mAP分数为73.2%,相比VIS模型提高了27.3%。相反,随着光照逐渐减弱,VIS模型的mAP分数从40-60光照条件下的63.4%急剧下降到20光照条件下的45.9%。尽管在黑暗场景中,M2FNet方法的mAP分数与TIR模型相比略有下降,但这些检测结果远优于VIS模型,这证明了TIR模型和M2FNet方法在低光条件下取得了明显的改进。
此外,单模态和多模态方法的mAP分数在60到80光照条件下略有波动。例如,随着光照从80条件变亮,M2FNet方法的mAP分数持续上升,在120-140光照条件下达到最高值75.6%。然而,在140光照条件以上,上升趋势开始逆转,下降了7.3%。同时,VIS模型的mAP分数从80-100光照条件下的60.9%稳步增长到120-140光照条件下的71.6%,但在140光照条件以上,上升趋势开始逆转,准确率降至65.2%。这些下降趋势的原因在于,在这些光照条件下,许多低质量的可见光图像是在雾天拍摄的,配对的TIR图像也受到噪声的影响。此外,不同光照条件下物体实例的飞行高度和观察角度的差异也可能影响检测结果的准确性。
总体而言,定量结果表明,M2FNet方法以75.6%的mAP得分和25.6%的最大mAP增量取得了最佳表现,验证了融合可见光(VIS)和热红外(TIR)模态的M2FNet方法在不同光照条件下检测车辆实例的有效性。评估结果还展示了TIR模态在低光条件下,尤其是在黑暗场景中,对提升目标检测性能的重要性。
VIS模型、TIR模型和M2FNet在DroneVehicle测试子集上的可视化检测结果如图9所示。如(a)和(b)列所示,不同光照水平明显影响了VIS模态下物体的不确定性成像,而TIR传感器是被动接收物体热辐射的,不受光照条件变化的影响,即使光线减弱也是如此。因此,TIR模型在黑暗环境中表现出高性能的检测结果(如图9(A)(B)-(d)所示)。相比之下,VIS模型在图9(A)(B)-©所示的黑暗场景中未能检测到车辆实例,而在明亮光照条件下,该模型表现出高性能(如图9(F)(G)-©所示)。具有跨模态注意力特征的多模态M2FNet方法(CMA模型)在从低光到明亮光照条件下的40及以上光照条件下超越了单模态方法(VIS模型和TIR模型)(如图9中©(H)行所示)。此外,图9(H)展示了在雾天条件下拍摄的空中VIS和TIR图像。因此,如图9(H)-©所示,由于复杂成像条件下车辆特征不清晰,VIS模型在准确检测车辆实例方面面临挑战。
图9. 单模态方法与M2FNet方法在不同光照条件下的目标检测结果对比。真实值(GT)数据在热红外模态上可视化。
总体而言,通过DroneVehicle测试子集中多光照场景的定量和定性评估结果,M2FNet能够成功检测车辆实例,即使在极暗条件下,也能通过从可见光(VIS)和热红外(TIR)模态中学习互补信息。这表明该方法能够有效克服单一模态在恶劣光照下存在的检测问题,并在全天候目标检测应用中显著提升整体性能。
4.2. 多角度观测的影响
本文中的观测角度θ定义为从地面到传感器位置的仰角,如图10所示。在基于航空平台的遥感中,飞机平台从天底角(即90°)扫描地表,而基于无人机的低空平台则提供具有灵活观测角度的航空图像。除了垂直观测角度外,DroneVehicle数据集的倾斜观测角度为45°、60°和75°,在其官方工作中也相应表示为45°、30°和15°(天底角θ定义为0°)。此外,用于水平角度映射的地面遥感平台用于从接近地表的位置捕获图像。因此,多源数据被聚合以探索观测角度对检测结果的影响。在评估指标中,每张图像的推理平均时间用于表示检测器的计算复杂度。
图10. 多角度观测的描述,其中基于低空无人机平台的倾斜观测具有更灵活的角度。
如表8所示,VIS模型、TIR模型和M2FNet在DroneVehicle测试子集上的mAP@0.5得分分别为59.3%、70.2%和71.5%。考虑到DroneVehicle数据集的多角度观测特性,所有三个模型在60°斜角下均取得了最高的mAP得分。这一现象的主要原因是DroneVehicle数据集的多角度样本。根据DroneVehicle数据集的标注,本文从四个角度和三个高度提取了多角度数据。这些数据的分布如图11所示。在90°天底角下拍摄的图像数量较多,且高度场景比45°-75°斜角下拍摄的图像更为复杂。因此,在80-120米的综合观测高度下,天底角的目标检测面临显著挑战。此外,结果还受到不确定性后处理误差的影响。由于DroneVehicle数据集未能直接提供与VIS和TIR图像对应的角度和高度信息,手动提取的角度和高度信息存在不确定性误差。例如,尽管根据高度和角度标注,某些图像被识别为90°,但可视化结果表明这些图像可能并非从90°天底角拍摄。此外,在60°和75°斜角下拍摄的图像主要分布在较低高度(80米和100米),而在45°斜角下拍摄的图像主要来自较高高度(120米)。因此,三个模型在45°斜角下的mAP得分低于60°和75°斜角下的得分。需要注意的是,图11中一些没有角度和高度标签的数据被记录为“无”。
表8 VIS模型、TIR模型和M2FNet在DroneVehicle测试子集下不同观测角度的mAP得分。各模型在不同观测角度下的最佳mAP得分已高亮显示。
基于多角度无人机图像的三模型可视化结果如图12所示。随着观测角度的减小或增大,无人机传感器捕获的目标实例特征受到不同程度的影响。例如,当观测角度从75°斜角减小到45°斜角时,更多远距离场景中的实例出现在可见光(VIS)和热红外(TIR)斜角图像中,如图12(A)-(a)和(B)-(a)所示。因此,检测器在检测以45°角度、120米飞行高度拍摄的斜角图像时面临挑战。如图12©(E)-(a)所示,三个检测器在远距离场景中漏检了多个目标。在表8和图11的定量分析中,天底角图像的数量多于其他观测角度,且这些图像是在80-120米的灵活飞行高度范围内拍摄的。其中一张天底角图像的可视化结果如列(d)所示。需要注意的是,图12(B)-(a)和(B)-(b)的GT数据中未标注一些真实车辆实例,但在图12©(E)-(a)和©(E)-(b)中被检测到。因此,人工误差也对检测结果的准确性产生了一定影响。总体而言,与VIS模型和TIR模型相比,M2FNet方法通过从VIS和TIR模态中学习跨模态注意力特征($f_{CMA}$),在图12(E)(a)(d)中获得了更准确的检测结果。然而,从推理时间的速度指标来看,M2FNet方法确实引入了额外的内存和速度开销,这归因于跨模态注意力融合优化的更多中间特征。具体而言,M2FNet方法的平均每张图像的最长推理时间为0.106秒,而VIS模型和TIR模型的推理速度分别为0.06秒和0.054秒。关于模型的复杂度,M2FNet方法的参数数量约为7000万,而每个单模态方法的参数数量约为6000万。因此,与VIS和TIR模型相比,M2FNet方法的推理时间增加了一倍。
总体而言,基于M2FNet方法的车辆检测模型通过DroneVehicle的训练和验证子集进行训练,这些子集包含在不同空中观测角度和飞行高度下拍摄的图像。因此,该模型在具有相同特征的DroneVehicle测试子集中能够实现稳健的检测结果。这三种模型在60°观测角度下具有较高的鲁棒性和泛化能力。此外,本文将在后续部分进一步评估M2FNet方法在多源数据集(VI2DA)上的性能,该数据集由多个观测角度和跨传感器平台捕获。
如图13所示,为了验证M2FNet方法在多源数据集上多角度观测的性能,本文提出的VI2DA数据集在三种遥感平台(机载、无人机和手持便携式传感器)下采集,用于定性评估该方法在从两个公共数据集训练后,在这些应用场景中检测车辆和行人实例的有效性和鲁棒性。
图13. 多源多角度数据集中的迁移应用流程图。
多角度目标检测结果如图14所示。观测角度对M2FNet方法的整体性能有显著影响,因为目标实例在几何特征、前景和背景环境以及摄影测量成像系统方面与训练图像存在较大差异。VI2DA数据集中包含行人实例的水平图像和倾斜图像(如图14(A)(D)-(a)所示)与从监控摄像头平台捕获的LLVIP数据集的观测角度相似。相比之下,VI2DA数据集中包含车辆实例的水平图像和天底图像(如图14(A)(B)-©和(E)(F)-©所示)与DroneVehicle数据集相比存在较大尺度和观测角度差异。因此,行人检测的准确率(如列(b)所示)通常高于车辆实例的检测准确率(如列(d)所示)。此外,在图14(F)(b)中,从无人机天底角度拍摄的阴影区域下携带某些仪器的行人实例难以被检测到,因为VIS和TIR图像中行人实例的特征(如图14(F)-(a)~(b)所示)不够显著。
图14. VI2DA测试数据集中多观测角度和平台下目标检测结果的定性对比。
5.结论
本文提出了一种新颖的方法(M2FNet),这是一种基于Transformer的UMA和CMA模块联合训练可见光(VIS)和热红外(TIR)特征的多模态目标检测框架。定量分析结果表明,与单模态VIS模型和TIR模型相比,M2FNet方法通过优化互补特征(VIS和TIR模态),在mAP@0.5指标上分别提高了10.71%和2.97%的目标检测性能。与现有多模态方法在两个公开数据集(DroneVehicle和LLVIP验证子集)上的表现相比,M2FNet方法分别达到了76.8%和96.9%的先进检测性能。此外,本文还提出了新的VI2DA数据集,这是一个由不同传感器和平台观测到的可见光-红外配对视频和图像数据集,用于多角度和跨模态目标检测。使用三个数据集评估和测试模型在各种影响因素下的性能,包括光照条件和观测角度。在20级低光照条件下的实验结果表明,M2FNet方法的最大准确率提升了25.6%(与单模态VIS模型相比),验证了M2FNet方法在变化光照条件下的有效性。然而,基于多角度无人机图像训练的车辆检测器在俯仰角下捕获的高空机载图像中存在局限性,并且M2FNet方法在多模态特征学习中引入了额外的计算负担,其参数量约为7000万,平均每张图像的推理时间为0.106秒。因此,未来将开发一种更高效的多模态方法,以实现通过多传感器和多平台遥感技术捕获的图像和视频的实时高精度目标检测。