DA-CLIP:Controlling Vision-Language Models for Universal Image Restoration

news/2024/12/22 12:24:38/

在这里插入图片描述

conference:2024 ICLR
paper:https://arxiv.org/pdf/2310.01018
code:https://github.com/Algolzw/daclip-uir

文章目录

  • 作者
  • 动机
    • 核心思想
    • 常见解决方案
    • 挑战
    • 本文解决方法
  • 贡献
  • 方法
    • 基本框架
    • Controller的优化与Loss函数
    • 数据对的生成
      • 基本框架
      • 数据展示
  • 实验
    • 实验细节
    • 实验效果
      • 本文的方法和其他方法在四个特定退化数据集上的定量比较
      • 可视化比较
      • 四种不同算法对十类退化的表现
      • 训练曲线证明DA-CLIP的有效性

作者

在这里插入图片描述

动机

尽管CLIP在high-level的视觉任务中有较好的性能,但当涉及到low-level的视觉任务(如图像恢复)时,由于输入图像的退化,它们的性能会急剧下降。因此本文方法的核心就是控制预训练的CLIP模型,能够从退化图像中输出高质量的图像特征,并且同时预测退化类型。

在这里插入图片描述

核心思想

使用单一模型在多个任务和数据集上进行恢复。

  • 对不同退化类型有更好的泛化能力。
  • 能高效地部署于实际应用中。

常见解决方案

针对退化分类训练单独的模块

  • AirNet [1] 使用对比学习训练一个额外的编码器来区分退化类型。
  • PromptIR [2] 采用视觉提示模块来指导不同任务的恢复。

局限性:它们受限于少量的退化类型和特定数据集!

挑战

  • 由于不同任务的数据集不平衡,导致预测不准确。
  • 没有合适的方法利用退化来进行图像恢复

本文解决方法

大规模预训练视觉 - 语言模型!!!

贡献

  • 提出了DA - CLIP(Degradation-Aware CLIP),利用视觉 - 语言模型进行通用图像恢复。关键组件是一个 image controller ,它可以预测退化情况,并调整固定的CLIP图像编码器,以便从损坏的输入中输出高质量的内容嵌入。
  • 使用交叉注意力将高质量的内容嵌入整合到不同的图像恢复网络中,以提高它们的性能。此外,引入了一个提示学习模块,以便更好地利用退化背景进行统一的图像恢复
  • 构建了一个包含十种不同退化类型的混合退化数据集,并配有高质量的合成标题。该数据集可用于训练DA - CLIP或统一图像恢复模型。
  • 通过将DA - CLIP应用于特定退化和统一图像恢复图像恢复模型,展示了DA - CLIP的有效性。我们的方法在所有十种退化类型上都取得了极具竞争力的性能。

方法

基本框架

在这里插入图片描述
在这里插入图片描述

Controller的优化与Loss函数

对于image controller的优化,首先冻结预训练的CLIP模型,只更新controller。这里使用的是一个对比损失,假设一个训练的batch中,共有N个样本,则Loss如下:
L con ( x , y ) = − 1 N ∑ i = 1 N log ⁡ ( exp ⁡ ( x i T y i / τ ) ∑ j = 1 N exp ⁡ ( x i T y j / τ ) ) \mathcal{L}_{\text{con}}(\mathbf{x}, \mathbf{y}) = - \frac{1}{N} \sum_{i = 1}^{N} \log \left( \frac{\exp (\mathbf{x}_i^T \mathbf{y}_i / \tau)}{\sum_{j = 1}^{N} \exp (\mathbf{x}_i^T \mathbf{y}_j / \tau)} \right) \ Lcon(x,y)=N1i=1Nlog(j=1Nexp(xiTyj/τ)exp(xiTyi/τ)) 
其中 ( x , y ) (x,y) (x,y) 为归一化后的 ( e c T , e c I ) (e^T_c, e^I_c) (ecT,ecI) ( e d T , e d I ) (e^T_d, e^I_d) (edT,edI) τ \tau τ是一个可学习的超参数,用于控制对比学习的力度。

数据对的生成

基本框架

使用BLIP,通过高质量的图像生成准确的、干净的文本,并与对应的退化图像、退化类型进行组合。
在这里插入图片描述

数据展示

在这里插入图片描述

实验

实验细节

在四个NVIDIA A100 GPU上训练DA-CLIP模型50个epoch加粗样式。对于恢复模型,使用16的批量大小,并随机将图像裁剪为256 × 256以进行数据增强。

实验效果

本文的方法和其他方法在四个特定退化数据集上的定量比较

在这里插入图片描述

可视化比较

在这里插入图片描述

四种不同算法对十类退化的表现

在这里插入图片描述

训练曲线证明DA-CLIP的有效性

在这里插入图片描述


http://www.ppmy.cn/news/1557187.html

相关文章

windwos defender实现白名单效果(除了指定应用或端口其它一律禁止)禁止服务器上网

一、应用场景说明 当我们的一台windows服务器中毒,变成别人肉鸡,不断向外请示非法网站或攻击其它服务器。 要彻底清除相关木马或病毒往往需要的时间比较长,比较有效的方法是禁止服务器主动向外发包除了网站端口和远程程序除外。 其实这就是一…

#渗透测试#漏洞挖掘#红蓝攻防#SRC漏洞挖掘05之并发漏洞挖掘技巧

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停止本文章读。 目录 并发漏洞 1、刷赞 2、签到 3、突破限购 …

excel 使用vlook up找出两列中不同的内容

当使用 VLOOKUP 函数时,您可以将其用于比较两列的内容。假设您要比较 A 列和 B 列的内容,并将结果显示在 C 列,您可以在 C1 单元格中输入以下公式: 这个公式将在 B 列中的每个单元格中查找是否存在于 A 列中。如果在 A 列中找不到…

半导体制造技术导论(第二版)萧宏 第十二章 化学机械研磨工艺

本章要求 1.列出化学机械研磨工艺的应用 化学机械研磨是一种移除工艺技术,结合化学反应和机械研磨去除沉积的薄膜,使表面更加平滑和平坦;也用于移除表面上大量的电介质薄膜,并在硅衬底上形成浅沟槽隔离STI;还可以从晶圆…

CSS系列(21)-- Houdini 详解

前端技术探索系列:CSS Houdini 详解 🎨 致读者:探索 CSS 的新边界 👋 前端开发者们, 今天我们将深入探讨 CSS Houdini,这项革命性的技术让我们能够直接访问 CSS 引擎的底层。 Houdini 基础 &#x1f68…

【已解决】【大数据综合案例】上| Hive与MongoDB配置

遇到的问题及解决方法 Hive 报错:sudo: 未知用户;HiveServer2启动失败;端口被占用 导入数据:通过JDBC连接Hive和MySQL,将数据从Hive导入MySQL。通过JDBC连接Hive,需要通过Hive的thrift服务实现跨语言访问…

基于“2+1 链动模式商城小程序”的微商服务营销策略探究

摘要:本文探讨在竞争激烈的市场经济与移动互联网时代背景下,微商面临的机遇与挑战。着重分析“21 链动模式商城小程序”如何助力微商改变思路,通过重视服务、提升服务质量,以服务营销放大利润,实现从传统微商模式向更具…

云消息队列 MQTT 版:物联网通信的基础设施

在物联网(IoT)技术日新月异的今天,设备之间的通信需求逐渐增大,尤其是在需要高效、实时数据交换的应用场景中,如何确保设备与设备、设备与平台之间的无缝对接与信息流通,成为了行业发展的关键。为了适应这些…