MMD-LoRA:利用多模态LoRA解决不利条件下的深度估计问题(ACDE)

server/2025/1/22 5:13:34/

导读: 作者引入多模态驱动的低秩适应(MMD-LoRA)方法,利用低秩适应矩阵实现从源域到目标域的高效微调,以解决不利条件下深度估计(ACDE)问题。它由两个核心组成部分构成:基于提示的领域对齐(PDDA)和视觉-文本一致性对比学习(VTCCL)。通过大量实验,该方法突显了其在适应各种不利环境中的鲁棒性和效率。

©️【深蓝AI】编译

论⽂题目:Multi-Modality Driven LoRA for Adverse Condition Depth Estimation

论文作者:Guanglei Yang, Rui Tian, Yongqiang Zhang, Zhun Zhong, Yongqiang Li, Wangmeng Zuo

论文地址:https://arxiv.org/pdf/2412.20162

1.研究背景

自动驾驶系统旨在应对各种现实世界条件。其中,主要挑战是解决诸多corner case场景,在不利条件下(如夜间、雾天、雨天和雪天)驾驶安全变得至关重要。这些不利条件不仅限制了车辆感知环境的能力,还增加了事故的风险,使得在这种情况下进行鲁棒的深度估计对于安全的自主驾驶至关重要。

解决这一问题的主要困难之一在于缺乏来自这些不利条件的高质量真实世界图像,收集这样的数据是件很困难的事情。此外,标注这些真实世界图像的高成本使得仅依赖传统的数据收集和标注方法变得不切实际。因此,人们只能寻找替代方法,而无需大规模的标注数据。

为此,一种在不同恶劣天气条件下进行深度估计的技术(ACDE)为当前研究热点,它在未见过的天气条件下估计深度信息,而无需依赖大量标注样本。尽管以往的方法(如md4all)取得了显著进展,但它们主要依赖生成模型将晴天条件下捕获的图像转换为表示不利天气的图像。然而,这些生成方法依赖于足够的目标图像来构建训练良好的模型(例如ForkGAN)。另一方面,一些方法利用可学习的参数进行特征增强,以适应目标领域,导致模型复杂性和调优工作的增加。此外,与CLIP基础的方法不同,深度估计模型缺乏足够的对齐来匹配文本和视觉空间,阻碍了在不利条件下的连贯理解。

在本文中,作者提出了一种新的方法:MMD-LoRA,它通过引入低秩适应(LoRA)技术与对比学习相结合,来解决不利条件深度估计(ACDE)任务。具体来说,通过设计多模态驱动的低秩适应(MMD-LoRA),以解决源域到目标域的领域差距以及视觉和文本表示之间的错位。MMD-LoRA的核心创新在于两个主要组件:基于提示的领域对齐(PDDA)和视觉-文本一致性对比学习(VTCCL)。

具体贡献如下:

  • 作者提出了MMD-LoRA,这是一种新的ACDE方法,通过结合低秩适应(LoRA)技术与对比学习,有效地解决了领域差距和多模态错位问题。

  • 作者还提出了基于提示的领域对齐(PDDA),该方法在图像编码器中使用可训练的低秩适应矩阵,并由文本嵌入引导。这一组件能够在不需要额外目标图像的情况下捕获准确的目标域视觉特征。同时,视觉-文本一致性对比学习(VTCCL)旨在实现稳健的多模态对齐,通过分离不同天气条件的嵌入,同时将相似的嵌入聚集在一起,从而增强一致性表示。

  • 大量实验表明,MMD-LoRA在两个流行基准(包括nuScenes数据集和Oxford RobotCar数据集)上的不利环境条件深度估计中表现出色。

▲图1 | 基于LoRA和基于增强方法的深度估计结果对比©️【深蓝AI】编译

2.相关工作

2.1. 不利条件下的深度估计

不利天气条件会导致激光雷达传感器的测量出现错误,特别是在雨天由于道路积水产生的反射,以及在夜间照明时非纹理区域的影响。这些因素妨碍了像素对应中的准确深度估计。迄今为止,仅有有限数量的研究探讨了不利天气条件下的深度估计

最近,在不利天气条件下深度估计方面,已通过基于图像增强的方法和基于风格迁移的方法获得了一些进展。这些基于图像增强的方法仅集中于解决与照明不足和反射相关的问题。然而,这些方法通常未能建立一个统一的框架来提供更强大和通用的解决方案。为了解决这一局限性,提出了基于风格迁移的方法,以构建一个应对多种不利天气的统一框架。例如,md4all通过利用像ForkGAN这样的生成模型将晴天条件下捕获的图像转换为描绘不利天气的图像,从而实现源领域图像的多样化。类似地,Fabio等人利用先进的文本到图像扩散模型生成新的用户定义场景及其相关的深度信息。

2.2. 零样本深度估计

零样本(Zero-Shot)深度估计是一项重要的挑战任务,要求在推理时有效地使训练于源域图像的深度估计器推广到未知的目标域。例如,Zoedepth通过在多个数据集上进行预训练,结合相对和度量深度,并采用轻量级解码器使用度量深度信息微调模型,从而取得了令人印象深刻的泛化性能。Ranftl等人提出了一种对深度范围和缩放变化不变的鲁棒训练目标,通过结合来自不同源的数据来提高泛化性能。最近,Depth Anything通过扩展训练集至约6200万张图像来提高模型的泛化能力。尽管这些努力增强了零样本推理能力,但仍然迫切需要更多高质量的合成真实世界图像。

2.3. 多模态对齐策略

多模态对齐增强了模型的场景感知能力,并捕获真实世界场景的细粒度表示。例如,Alec Radford等人开创性地将自然语言作为图像表示的监督信号,实现视觉和文本编码器的对齐。Yu等人开发了一种实例-语言匹配网络,在CLIP骨干网络中使用视觉提示学习和交叉注意力,促进实例和文本嵌入的匹配。Zhou等人引入了伪标注和自我训练过程,以在缺乏标注的情况下实现语义分割任务的像素-文本对齐。

与这些预先对齐的CLIP基础方法不同,深度估计模型在多模态特征之间缺乏足够的对齐,阻碍了在不利条件下的连贯理解。文本编码器与图像编码器之间的不对齐不可避免地破坏了LoRA在不利条件下的泛化能力,并导致次优结果。

3.方法精析

3.1. 提示驱动领域对齐

在预训练步骤中,基于 MMD-LoRA 的基准深度估计器中的图像编码器在 PDDA 过程中,受对齐损失的监督下,捕获准确的目标领域视觉表示。同时,VTCCL 将不同天气条件的表示分开,并将相似的表示聚集在一起,以进一步增强 MMD-LoRA 对各种不利条件的泛化能力。在训练步骤中,使用训练好的 MMD-LoRA 将可训练的低秩分解矩阵注入到深度估计器的图像编码器的自注意力模块中的 ‘q’,‘k’,‘v’,‘proj’ 层,并进一步优化深度估计器。给定源域中的图像I \in \mathbb R^{HW C},通过随机截取多个裁剪图像来感知细粒度的天气条件,其中 N 为裁剪数量。本文将源域文本描述P_s和未见的目标域文本描述Pt = \{P_i^t\}_i^M,其中iM分别表示目标域的索引和目标域的总数量。例如,P_sP^i_t可以表示为 “白天拍摄的图像”和“夜间拍摄的图像”,“雨天拍摄的图像”。为了在 PDDA 过程中使未见目标域的文本描述多样化,结合了多种不利天气条件的语义概念,例如P^i_t可以表示为“雨夜拍摄的图像”。基于 CLIP 的预训练文本编码器T (\cdot ) 和基于预训练的图像编码器V (\cdot )被引入,以提取视觉表示和文本嵌入。然后,使用基于其固有优势的参数高效的 LoRA 来捕获未见的目标域视觉表示F_t^v。按照现有深度估计的训练范式,深度估计器使用图像标题P_c来捕获复杂道路场景的语义信息。

现有深度估计器中的预训练图像编码器通常仅捕获晴天条件下的视觉表示,这限制了其在未见目标域中的泛化能力。为了克服这一限制,目标是捕获更强健的视觉表示,并有效地适应基准深度估计器,以进行逆境条件下的深度估计,而更改最小。受到在自然语言处理领域显示出的低秩适应(LoRA)强泛化能力的启发,将可训练的低秩分解矩阵(称为 MMD-LoRA)引入到图像编码器的特定层中。这种集成显著提高了模型在不同不利天气场景中的泛化能力。与其更新整个原始图像编码器不同,修改受到限制,注入了可训练的低秩矩阵,如公式 1 所定义:

W = W_0 + \Delta W = W_0 + BA

其中预训练图像编码器的权重矩阵表示为W_0 \in \mathbb R^{d×k}。ΔW 由可训练的低秩分解矩阵 B 和 A 构建,以支持从晴天条件转移到不利天气条件的能力,其中 B \in \mathbb{R}^{d \times r}, A \in \mathbb{R}^{r \times k},并且秩r \ll min(d, k)。可训练的低秩分解矩阵 B 和 A 被设计用于捕获各种未见的目标域视觉表示。

为了训练这两个矩阵(即 B 和 A),PDDA 利用文本嵌入指导在未见目标域上的语义相关视觉表示的估算。具体来说,文本编码器 T (\cdot )和图像编码器V (\cdot )在预训练步骤中捕获源域视觉表示F_s^v 、源域文本嵌入F^l_s和目标域文本嵌入P^l_t。未见目标域的视觉表示F^v_t使用公式 2 计算:

F_t^v = [V \odot LoRA](I_{crop})

其中⊙表示可训练的低秩分解矩阵(即 MMD-LoRA)被集成到图像编码器V (\cdot )的 ‘q’,‘k’,‘v’ 和 ‘proj’ 自注意力层中。在文本和视觉空间中,语言和图像之间的源-目标差异应是相等的。因此,文本的差异 ∆L 有助于估算源域和目标域之间视觉的差异 ∆V。我们设计了一种对齐损失来监督 MMD-LoRA,以进一步获得准确的未见目标域视觉表示,如公式 3 所示:

L_{align} = D(\Delta V, \Delta L) + ||F_t^v - F_s^v||_1

其中 D(\cdot )表示余弦相似度损失。||\cdot ||_1表示 L1 正则化,以防止预测的未见目标域表示偏离源域视觉表示太远。 ∆V 表示通过公式 2 获得的F_s^vF^v_t的差异。 ∆L 表示通过文本编码器V (\cdot )获得的 F^l_sP^l_t的差异。需要注意的是,文本编码器T (\cdot )和图像编码器V (\cdot )是固定的。

3.2. 视觉-文本一致性对比学习

基于上述过程,PDDA 使得带有 MMD-LoRA 的图像编码器能够在不需要访问目标域图像的情况下捕获准确的目标域视觉特征F^v_t以进行深度估计。然而,现有的深度估计模型在多模态特征之间缺乏足够的对齐,这不可避免地会干扰 MMD-LoRA 的泛化能力,导致次优问题。为了解决这个次优问题,作者引入视觉-文本一致性对比学习(VTCCL),实现稳健的多模态对齐,进一步提高 MMD-LoRA 在不利天气条件下的泛化能力。

具体来说,对于图像I中的每个图像裁剪I_{crop},利用每个裁剪的F_s^vF^l_sF^v_tP^l_tF_s^v, F_t^{vi} \in \mathbb{R}^{N \times D}\ \ and \ \ F_s^l, F_t^{li} \in \mathbb{R}^D计算每种天气的视觉表示和文本嵌入的相似度。通过公式 4 按照对比学习的训练范式,迭代推开不同天气的表示(视觉和文本),并将相似的表示聚集在一起,从而进一步增强 MMD-LoRA 对不利条件的泛化能力。公式 4 为:

L_{vtccl} = -\lambda_0 \cdot log \frac{exp(F_s^v \cdot F_s^l / \tau)}{exp(F_s^v \cdot F_s^l / \tau) + \sum_{i=1}^{M} exp(F_s^v \cdot F_t^{l_i} / \tau)} - \\ \sum_{i=1}^{M} \lambda_i \cdot log \frac{exp(F_t^{v_i} \cdot F_t^{l_i} / \tau)}{exp(F_t^{v_i} \cdot F_t^{l_i} / \tau) + exp(F_t^{v_i} \cdot F_s^l / \tau)}

其中F_s^vF^{vi}_t \in \mathbb R^{N×D}F^l_sF^{li}_t \in \mathbb R^{D}iNM分别表示不利天气的索引、图像裁剪的数量和不利天气的总数量。λ表示对比学习权重系数,用于控制公式 4 中每种天气的不同权重。τ 表示温度参数。为了简洁起见,我们省略了所有图像裁剪的视觉和文本表示的N求和符号。

例如,源域的通用文本描述P_s,如“白天拍摄的图像”。对于目标域,一组文本描述P_t = \{P_t^i\}_{i=1}^M,表示不利条件,例如“夜间拍摄的图像”和“雨天拍摄的图像”。在这种情况下,M 为了简化设置为 2。然后,这些文本描述通过预训练的 CLIP 文本编码器进行处理,得到源域和目标域的文本嵌入F^l_sP^l_t

公式 4 应用了两个对比学习项:一个侧重于晴天条件,另一个处理不利天气(例如夜晚、雨天)。对于晴天条件的对比学习项,源域视觉表示F_s^v被选为锚点。源域文本嵌入F^l_s被视为正样本,而目标域文本嵌入P^l_t则作为负样本。在投影空间中使用内积计算相似性,以度量视觉表示和文本嵌入之间的距离。在不利天气的对比学习中,采用相似的方法。例如,夜间域视觉表示F^{v1}_t被选为锚点,对应的夜间域文本嵌入F^{l1}_t被指定为正样本,而源域文本嵌入F^l_s被指定为负样本。这个过程对所有目标域条件(包括夜晚和雨天)迭代重复进行。

最后,预训练阶段的整体损失通过公式 5 计算。

L_{pre} = L_{align} + L_{vtcl}

▲图 2 | MMD-LoRA 框架流程概览©️【深蓝AI】编译

4.实验分析

4.1. 数据集和评估指标

实验数据集为:nuScenes和 Oxford RobotCar。对于 nuScenes 数据集,它是一个具有挑战性的、包含 1000 个场景的大规模数据集,包含多样的天气条件和激光雷达数据。作者采用 md4all推荐的划分,其中包含 15129 张训练图像和 6019 张验证图像。需要注意的是,训练图像仅包括晴天的白天图像,不包含不利天气图像,而验证图像则分为晴天、夜晚和白天雨天条件。对于 Oxford RobotCar 数据集,该数据集包含白天和夜晚场景的混合。作者同样采用 md4all推荐的划分,其中包含 16563 张训练图像(包括晴天且不包含夜间天气)和 1411 张验证图像(包括晴天和夜间天气)。

4.2. 实验细节

MMD-LoRA 在预训练步骤中通过 PDDA 和 VTCCL 进行训练。基准深度估计器(即 EVP)在训练步骤中使用冻结的 MMD-LoRA 进行训练。在预训练步骤中,将图像随机裁剪为 15 个 400 × 400 的批次,并设置基础学习率为 0.001,使用 AdamW 优化器训练 MMD-LoRA 4000 次迭代,批次大小为 4。然后,将权重类型设置为 Wq、Wk、Wv、Wproj,并在 MMD-LoRA 中设置秩 r=8,以适应未见的目标域(即不利天气)。在 VTCCL 中,将 λ0: λ1: λ2 = 1:0.1:1 设置为 nuScenes 数据集,而将 λ0: λ1 = 1:0.05 设置为 Oxford RobotCar 数据集,作为不同天气条件下的对比学习权重系数。在训练步骤中,选择 EVP深度估计器作为基准,MMD-LoRA 方法中的其他训练设置则采用 EVP中的设置。

4.3. 实验对比

在 nuScenes 数据集上的比较结果如表1所示,MMD-LoRA 方法超越了所有以前的方法,在大多数指标上取得了最佳结果。与最近的最先进方法md4all-DD相比,MMD-LoRA方法有很大的优势。例如,在晴天条件下,MMD-LoRA 超过了之前的最先进方法 8.43%(从 88.03% 提高到 96.46%),在夜间提高了 4.63%(从 75.33% 提高到 79.96%),在雨天条件下提高了 12.55%(从 82.82% 提高到 95.37%)。这些比较结果证明了MMD-LoRA 的有效性。与 md4all和 Fabio等的工作不同,这些工作依赖于生成模型将晴天条件转换为不利天气,并进一步捕获目标域的视觉表示。MMD-LoRA 在捕获目标域视觉特征方面变得更加直接且更强大。如图3所示,MMD-LoRA方法能够识别夜间和晴天条件下场景的关键元素,相邻物体或相同物体之间的区分度更高。例如,MMD-LoRA 正确捕获了完整的障碍物,清晰地区分了两个柱子,并恢复了汽车中的“孔”。

▲表1 | nuScenes实验结果对比©️【深蓝AI】编译

▲图 3 | 实验定性结果对比(nuScenes)©️【深蓝AI】编译

为了证明MMD-LoRA 的鲁棒性,在 RobotCar 数据集上评估了 MMD-LoRA。结果如表2所示,与其他方法相比,MMD-LoRA 同样超越了所有以前的方法。与之前的最先进方法相比,MMD-LoRA方法成功地将 d1 在白天从 87.17% 提高到 92.56%,在夜间从 83.68% 提高到 89.33%。如图 4 所示,MMD-LoRA在第一行和第二行的夜间和晴天图像中清晰地估计了站立柱子和人头的深度。对 RobotCar 数据集的比较进一步证明了 MMD-LoRA 在不利条件下深度估计的有效性。表 1 和表 2 还显示,MMD-LoRA 能够在真实场景中获得雨天和夜间的视觉表示,这些视觉表示对任何未见的目标域都具有鲁棒性。

▲表 2 | RobotCars实验结果对比©️【深蓝AI】编译

▲图 4 | 实验定性结果对比(Robotcar)©️【深蓝AI】编译

4.4. 消融实验

如表3所示,尽管 EVP 在不利条件下的表现已经很好,但是 MMD-LoRA 与 PDDA 的性能在白天和夜间的 d1 上仍然超越 EVP 0.39% 和 5.97%。这种改进的原因在于 MMD-LoRA 与 PDDA 确实能够捕获目标域的视觉特征,而无需额外的目标域图像。如图 5 的第二和第三列所示,EVP 在估计物体边界的深度时倾向于产生深度伪影。与 EVP 相比,带有 PDDA 的 MMD-LoRA 实现了清晰的边界,并消除了背景噪声。此外,通过将 VTCCL 引入 MMD-LoRA,MMD-LoRA 在 d1 上达到了 96.46%,并且与仅使用 PDDA 相比,误差保持相当甚至大幅改善。这是因为 VTCCL 实现了稳健的多模态对齐,增强了一致的表示。

▲表 3 | 消融实验结果对比(nuScenes)©️【深蓝AI】编译

如图 5 的第三和第四列所示,VTCCL 进一步实现了更清晰的轮廓和像素级准确的深度估计,具有清晰的物体边界(例如树的边界、完整的卡车),并产生了红框所示的深度伪影。

▲图 5 | MMD-LoRA with PDDA and VTCCL消融实验结果©️【深蓝AI】编译

如表4所示,实验基于学习的增强方法和基于学习的模型方法(即 MMD-LoRA)在不利条件下深度估计的性能。虽然基于学习的增强方法和基于学习的模型方法在夜间分别带来了 1.60% 和 5.47% 的改善,在白天雨天条件下分别带来了 0.22% 和 0.85% 的改善,均大幅超越了基线。与可学习的增强方法相比,基于学习的模型方法在参数数量(仅增加 0.035M)上几乎没有增加的情况下实现了更优的深度估计性能。作者进行消融实验,以找到适合图像编码器中自注意力特定层的合适秩r。 表5显示了利用不同秩 r 的深度估计性能比较。当将秩 r 设置为 8 时,MMD-LoRA 实现了优异的 d1 和可比的误差指标,并且在逐渐增加 r 的情况下表现良好。值得注意的是,深度估计性能并不总是通过增加秩 r 而改善。这可以解释为设置较大的阈值 r > 8 可能导致预测的未见目标域表示过拟合相应的文本描述,并偏离现实世界中的特征。

▲表4 | 增强和LoRA的深度估计结果对比©️【深蓝AI】编译

▲表 5 | 不同r值下的深度估计结果对比©️【深蓝AI】编译

5.全文总结

总之,现有的恶劣条件深度估计方法通常需要额外的目标图像和深度估计器,但它们未能实现多模态特征之间的充分对齐。作者提出MMD-LoRA方法,它通过参数高效的微调技术和对比学习范式解决了这些局限性。具体而言,基于提示的领域对齐(PDDA)利用图像编码器中的可训练低秩适应矩阵,由文本嵌入指导,有效捕获来自未见目标域的视觉特征。随后,视觉-文本一致性对比学习(VTCCL)将不同天气条件的嵌入分开,同时将相似的嵌入拉近,确保稳健的多模态对齐,并增强 MMD-LoRA 在多样不利场景中的泛化能力。全面的定量和定性实验验证了 MMD-LoRA 的有效性。未来的工作将探索将这种方法扩展到基于视频的应用。

但是,MMD-LoRA 方法依赖于源域和目标域的预定义文本描述,这在大多数应用中假定是已知的。此外,实验假设晴天的亮度保持一致,即使在不利天气条件下(例如,雨天的降雨或夜间的能见度)。这个假设在天气条件发生细微变化的情况下可能不成立。


http://www.ppmy.cn/server/160370.html

相关文章

蓝桥杯算法日常|c\c++常用竞赛函数总结备用

一、字符处理相关函数 大小写判断函数 islower和isupper:是C标准库中的字符分类函数,用于检查一个字符是否为小写字母或大写字母,需包含头文件cctype.h(也可用万能头文件包含)。返回布尔类型值。例如: #…

各种获取数据接口

各种获取数据免费接口 1.音频接口 代理配置 /music-api:{target:https://api.cenguigui.cn/,changeOrigin:true,rewrite:(path)>path.replace(/^\/music-api/,),secure:false}axios全局配置 import axios from axios;const MusicClient axios.create({baseURL: /music-a…

Vue.js组件开发-解决PDF签章预览问题

在Vue.js组件开发中,解决PDF签章预览问题可能涉及多个方面,包括选择合适的PDF预览库、配置PDF.js(或其封装库如vue-pdf)以正确显示签章、以及处理可能的兼容性和性能问题。 步骤和建议: 1. 选择合适的PDF预览库 ‌vu…

Centos7系统下安装和卸载TDengine Database

记录一下Centos7系统下安装和卸载TDengine Database 安装TDengine Database 先看版本信息 [root192 ~]# cat /etc/centos-release CentOS Linux release 7.9.2009 (Core) [root192 ~]# uname -r 3.10.0-1160.119.1.el7.x86_64 [root192 ~]# uname -a Linux 192.168.1.6 3.10…

[Azure] 如何解决个人账号无法直接登录的问题:利用曲线救国方法访问Speech Studio

近期,Azure的一些用户反映,他们在尝试通过个人账号登录Azure Portal时遇到问题,登录失败或无法访问已创建的资源。虽然Azure可能正在进行一些后台改制,导致了这一问题的发生,但用户仍然需要访问和使用一些资源(比如Speech Studio中的服务)。本文将分享一种曲线救国的解决…

git新建一个分支完成开发后合并到master分支

真正开发项目中是多个人开发一个项目的,需要进行代码的管理,可以使用 版本控制工具 git。 master 分支是最完善的代码分支,其他分支是用来开发的。 自己新建一个分支,写完代码 push 上去后,经过 mt 查看你的代码&…

Linux应用编程(五)USB应用开发-libusb库

一、基础知识 1. USB接口是什么? USB接口(Universal Serial Bus)是一种通用串行总线,广泛使用的接口标准,主要用于连接计算机与外围设备(如键盘、鼠标、打印机、存储设备等)之间的数据传输和电…

IT程序设计文档,软件需求设计文档,详细设计模板(Word原件)

1引言 1.1编写目的 1.2项目背景 1.3参考材料 2系统总体设计 2.1整体架构 2.2整体功能架构 2.3整体技术架构 2.4设计目标 2.5.1总体原则 2.5.2实用性和先进性 2.5.3标准化、开放性、兼容性 2.5.4高可靠性、稳定性 2.5.5易用性 2.5.6灵活性和可扩展性 2.5.7经济性…