DA-CLIP:Controlling Vision-Language Models for Universal Image Restoration

ops/2024/12/22 17:41:45/

在这里插入图片描述

conference:2024 ICLR
paper:https://arxiv.org/pdf/2310.01018
code:https://github.com/Algolzw/daclip-uir

文章目录

  • 作者
  • 动机
    • 核心思想
    • 常见解决方案
    • 挑战
    • 本文解决方法
  • 贡献
  • 方法
    • 基本框架
    • Controller的优化与Loss函数
    • 数据对的生成
      • 基本框架
      • 数据展示
  • 实验
    • 实验细节
    • 实验效果
      • 本文的方法和其他方法在四个特定退化数据集上的定量比较
      • 可视化比较
      • 四种不同算法对十类退化的表现
      • 训练曲线证明DA-CLIP的有效性

作者

在这里插入图片描述

动机

尽管CLIP在high-level的视觉任务中有较好的性能,但当涉及到low-level的视觉任务(如图像恢复)时,由于输入图像的退化,它们的性能会急剧下降。因此本文方法的核心就是控制预训练的CLIP模型,能够从退化图像中输出高质量的图像特征,并且同时预测退化类型。

在这里插入图片描述

核心思想

使用单一模型在多个任务和数据集上进行恢复。

  • 对不同退化类型有更好的泛化能力。
  • 能高效地部署于实际应用中。

常见解决方案

针对退化分类训练单独的模块

  • AirNet [1] 使用对比学习训练一个额外的编码器来区分退化类型。
  • PromptIR [2] 采用视觉提示模块来指导不同任务的恢复。

局限性:它们受限于少量的退化类型和特定数据集!

挑战

  • 由于不同任务的数据集不平衡,导致预测不准确。
  • 没有合适的方法利用退化来进行图像恢复

本文解决方法

大规模预训练视觉 - 语言模型!!!

贡献

  • 提出了DA - CLIP(Degradation-Aware CLIP),利用视觉 - 语言模型进行通用图像恢复。关键组件是一个 image controller ,它可以预测退化情况,并调整固定的CLIP图像编码器,以便从损坏的输入中输出高质量的内容嵌入。
  • 使用交叉注意力将高质量的内容嵌入整合到不同的图像恢复网络中,以提高它们的性能。此外,引入了一个提示学习模块,以便更好地利用退化背景进行统一的图像恢复
  • 构建了一个包含十种不同退化类型的混合退化数据集,并配有高质量的合成标题。该数据集可用于训练DA - CLIP或统一图像恢复模型。
  • 通过将DA - CLIP应用于特定退化和统一图像恢复图像恢复模型,展示了DA - CLIP的有效性。我们的方法在所有十种退化类型上都取得了极具竞争力的性能。

方法

基本框架

在这里插入图片描述
在这里插入图片描述

Controller的优化与Loss函数

对于image controller的优化,首先冻结预训练的CLIP模型,只更新controller。这里使用的是一个对比损失,假设一个训练的batch中,共有N个样本,则Loss如下:
L con ( x , y ) = − 1 N ∑ i = 1 N log ⁡ ( exp ⁡ ( x i T y i / τ ) ∑ j = 1 N exp ⁡ ( x i T y j / τ ) ) \mathcal{L}_{\text{con}}(\mathbf{x}, \mathbf{y}) = - \frac{1}{N} \sum_{i = 1}^{N} \log \left( \frac{\exp (\mathbf{x}_i^T \mathbf{y}_i / \tau)}{\sum_{j = 1}^{N} \exp (\mathbf{x}_i^T \mathbf{y}_j / \tau)} \right) \ Lcon(x,y)=N1i=1Nlog(j=1Nexp(xiTyj/τ)exp(xiTyi/τ)) 
其中 ( x , y ) (x,y) (x,y) 为归一化后的 ( e c T , e c I ) (e^T_c, e^I_c) (ecT,ecI) ( e d T , e d I ) (e^T_d, e^I_d) (edT,edI) τ \tau τ是一个可学习的超参数,用于控制对比学习的力度。

数据对的生成

基本框架

使用BLIP,通过高质量的图像生成准确的、干净的文本,并与对应的退化图像、退化类型进行组合。
在这里插入图片描述

数据展示

在这里插入图片描述

实验

实验细节

在四个NVIDIA A100 GPU上训练DA-CLIP模型50个epoch加粗样式。对于恢复模型,使用16的批量大小,并随机将图像裁剪为256 × 256以进行数据增强。

实验效果

本文的方法和其他方法在四个特定退化数据集上的定量比较

在这里插入图片描述

可视化比较

在这里插入图片描述

四种不同算法对十类退化的表现

在这里插入图片描述

训练曲线证明DA-CLIP的有效性

在这里插入图片描述


http://www.ppmy.cn/ops/144082.html

相关文章

GPT人工智能在医疗文档中的应用

应用场景 用于文档的整理。主要是针对医疗方面的文档整理。病人在打官司或者办理其他业务时,需要把很多文档整理成册并添加目录、编写概要(Summary)。这些文档有电子版本的,有纸质的扫描件,还有拍照(一般是…

Android -- 双屏异显之方法一

Android – 双屏异显之方法一&#xff1a;MediaRouter PS: 1. 部分主板可能不支持&#xff0c;得验证&#xff1b; 2. 副屏输出可以不用连接显示屏也能正常后台运行&#xff1b; 3. 主屏Activity内控制副屏&#xff1b; 4. 副屏截图命令&#xff1a;screencap -p -d 1 <pat…

apache-tomcat-6.0.44.exe Win10

apache-tomcat-6.0.44.exe Win10

vitepress-打包SyntaxError: Element is missing end tag.

一、vitepress打包编译报错Element is missing end tag. 背景&#xff1a; 新增了一些笔记准备上传到git仓库&#xff0c;持续集成部署的时候&#xff0c;控制台报错了&#xff0c;错误信息如下&#xff1a; SyntaxError: Element is missing end tag. 仔细看了下控制台几乎没啥…

【Verilog】实验八 有限状态机设计

一、实验目的 1. 掌握有限状态机原理和设计方法。 2. 掌握ModelSim和VIVADO工具软件。 3. 掌握基本的测试代码编写和FPGA开发板使用方法。 二、实验环境 1. 装有ModelSim和VIVADO的计算机。 2. Sword实验系统。 三、实验原理 有限状态机是时序电路的通用模型&#xff0…

HTML中的Vue3解析!

#Vue 3 是一个用于构建用户界面的渐进式 JavaScript 框架。它在 HTML 中发挥着重要的作用&#xff0c;可以让开发者轻松地创建交互式的网页应用。与 HTML 结合时&#xff0c;Vue 3 通过自定义指令、组件等方式增强了 HTML 的功能。# 一、vue的概述 Vue 采用了双向数据绑定机制…

【CSS in Depth 2 精译_084】第 14 章:CSS 蒙版、形状与剪切概述 + 14.1:CSS 滤镜

当前内容所在位置&#xff08;可进入专栏查看其他译好的章节内容&#xff09; 第四部分 视觉增强技术 ✔️【第 14 章 蒙版、形状与剪切】 ✔️ 14.1 滤镜 ✔️ 14.1.1 滤镜的类型 ✔️14.1.2 背景滤镜 ✔️ 14.2 蒙版 文章目录 第 14 章 蒙版、形状与剪切 Masks, shapes, and…

单节点calico性能优化

在单节点上部署calicov3273后&#xff0c;发现资源占用 修改calico以下配置是资源消耗降低 1、因为是单节点&#xff0c;没有跨节点pod网段组网需要&#xff0c;禁用overlay方式网络(ipip&#xff0c;vxlan),使用route方式网络 配置calico-node的环境变量 CALICO_IPV4POOL_I…