《Image Processing GNN: Breaking Rigidity in Super-Resolution》CVPR2024

server/2024/10/18 6:02:20/

摘要

这篇论文提出了一种名为Image Processing Graph Neural Networks (IPG) 的模型,旨在通过利用图的灵活性来突破超分辨率(Super-Resolution, SR)中的固有刚性问题。在现有的SR模型中,无论是基于卷积神经网络(CNNs)还是窗口注意力方法,每个像素都以固定的方式聚合相同数量的邻域像素,这限制了它们在SR任务中的有效性。IPG模型通过图的灵活性解决了这一问题,通过度灵活性、像素节点灵活性和空间灵活性来提升SR性能。实验结果表明,IPG在多个数据集上超越了现有的最先进方法。

概述

拟解决的问题

现有的超分辨率模型在处理图像时存在刚性问题,即在聚合邻域像素信息时,每个像素都以相同的方式处理,没有考虑到图像中不同区域的细节丰富程度和重要性。这导致了在细节丰富区域的重建努力不足,而在平坦区域则可能过度处理。

创新之处

  1. 度灵活性(Degree Flexibility):IPG模型根据图像中的细节丰富程度为每个像素节点分配不同的度数,细节丰富的区域(如边缘和角落)会有更高的节点度数,从而能够聚合更多的邻域信息。
  2. 像素节点灵活性(Pixel Node Flexibility):与传统的基于补丁的图节点不同,IPG采用单个像素作为图节点,避免了由于补丁刚性导致的错位问题。
  3. 空间灵活性(Space Flexibility):IPG通过在局部和全局尺度上采样像素节点来构建图,这样可以有效地从局部和全局两个尺度上聚合信息,增强了模型对空间信息的感知能力。

方法

每个 IPG 由 M 个 MGB 块组成,每个 MGB 都有 G个GAL 层。局部和全局图在 MGB 内交替分布到 GLS。

图1

IPG模型的核心在于构建灵活的图并进行有效的图聚合。具体方法包括:

  • 细节丰富度指标(Detail-Rich Indicator):用于衡量像素节点的重要性,并据此分配节点度数。
  • 像素节点:将图像视为像素节点集合,而不是补丁节点,以提高灵活性。
  • 局部和全局图构建:通过在图像的局部和全局尺度上搜索像素节点连接,构建局部图和全局图。
  • 图聚合:采用边条件聚合,同时加入相对位置编码以增强位置信息。

3.1 度灵活性

IPG模型首先识别图像中的细节丰富区域,并为这些区域的像素节点分配更高的度数。这是基于这样的观察:在超分辨率任务中,图像的某些部分(如边缘和纹理区域)需要更多的细节重建工作,而其他部分(如平坦区域)则几乎不需要改变。

为了实现这一点,论文提出了一个细节丰富度指标(Detail-Rich Indicator, DF),用于衡量每个像素节点的重要性。DF是通过计算双线性插值上采样和下采样的特征图与原始特征图之间的绝对差值来计算的:

其中,F 是特征图,s 是下采样比例,这里取为2以避免严重的信息丢失。然后,每个像素节点的度数与其在DF中对应的值成比例:

可视化不同MGB块中细节丰富的指标DF。从图2可以看出,细节丰富的部分有响应:边距和角具有较高的DF,而DF中的平坦色块较低。可视化显示,所提出的DF可以有效地反映图像中各层的高频部分。

图2

3.2 像素节点灵活性

IPG模型采用单个像素作为图节点,而不是像以往的方法那样使用补丁(patch)作为节点。这样做的目的是为了避免在特征聚合过程中出现的错位问题,尤其是在低级特征图中,对象的移动和旋转可能会导致补丁错位。

然而,与像素图相比,补丁图可能具有更大的感知场,并且由于节点总数较少,更容易构建,这意味着边缘连接的搜索空间更小。因此,我们需要一种有效的方法来构建灵活有效的像素图。

3.3 空间灵活性

IPG模型通过在局部和全局尺度上采样像素节点来构建图,这样可以有效地从局部和全局两个尺度上聚合信息。局部采样关注于像素节点周围的邻域,而全局采样则在图像范围内以一种扩展的模式采样节点。

图3 突出显示图像节点(左)、局部采样(中)和全局采样(右)的原始图像。通过这种方式,图像图可以以有效的方式灵活地收集局部和全局信息。

3.4 图聚合

在构建了灵活的图之后,IPG模型执行图聚合操作,使得每个节点可以与其连接的邻居节点通信,并使用它们的信息进行自我精细化。IPG模型采用了边条件聚合(edge-conditioned aggregation),这是一种参数化函数,用于衡量节点对之间的相关性:

其中,f 是一个参数化函数,用于衡量节点对(u, v)之间的相关性,这里使用的是余弦相似度作为相关性度量。Ck是一个归一化常数,确保输出的和为1。 

尽管图聚合的灵活性,但我们关注的是空间信息在图聚合过程中被破坏:由于所有节点都被平等对待,模型将掌握关于节点位置的知识很少。因此,在聚合之前对节点特征添加相对位置编码以增强位置信息。

结论

IPG模型通过图的灵活性在超分辨率任务中取得了突破,相比现有的最先进方法,IPG在多个标准数据集上取得了更好的性能。该模型有效地解决了SR任务中的刚性问题,展示了图神经网络在图像处理任务中的潜力。论文还提到了对计算资源的需求,并提出了轻量级变体IPG-Tiny,以适应计算能力受限的应用场景。


http://www.ppmy.cn/server/132060.html

相关文章

异配图对比学习24整理

数据集介绍: 大类数据集名称pyg‘cora’ ,‘citeseer’ ,‘pubmed’,‘cornell’,‘texas’,wisconsin’,flickr,reddit,actoryandexchameleon_filtered, squirrel_filtered, roman_empire, amazon_rating…

框架一 Mybatis Spring SpringMVC(东西居多 后边的没怎么处理)

Mybatis 使用简单的XML或注解来配置和映射原生类型、接 口和Java的POJO (Plain Old Java Objects,普通老式Java对象)为数据库中的记录。 ${}和#{}的区别是 ${}替换成变量的值 #{}替换成? Mybatis中,resultType和ResultMap的区别是 如果数据库列名和…

【React】React18核心源码解读

前言 本文使用 React18.2.0 的源码,如果想回退到某一版本执行git checkout tags/v18.2.0即可。如果打开源码发现js文件报ts类型错误请看本人另一篇文章:VsCode查看React源码全是类型报错如何解决。 阅读源码的过程: 下载源码 观察 package…

Vite+Vue 3+TS环境搭建

文章目录 一、初始化项目二、安装状态管理工具pinia三、安装路由vue-router四、封装请求、响应拦截器、api五、跨域代理六、rem移动端适配七、配置vant库一、初始化项目 使用命令npm init vite创建项目,输入项目名称后语言选择Vue,然后选择TypeScript。然后进入项目使用命令…

基于resnet网络【系列】多类别图像识别、迁移学习:猫狗分类实战

目录 1、前言 2、resnet 猫狗分类实战 2.1 训练 2.2 推理 3、更换数据集训练 1、前言 ResNet(残差网络)是一种深度卷积神经网络架构,广泛用于图像分类任务。它是由微软研究院的研究人员于2015年推出的,以其通过使用残差连接…

【前端】Bootstrap:栅格系统 (Grid System)

Bootstrap的栅格系统是该框架的核心部分之一,能够让开发者轻松创建响应式网页布局,适配各种屏幕尺寸和设备。栅格系统通过将页面划分为12列的布局结构,开发者可以根据内容的重要性和设计需求灵活控制元素的宽度和排列。 在这篇文章中&#x…

Java+Jenkins实现自动化打包部署流程

目录 jenkins简介 前置依赖 1. jdk17 2.apache maven 3.8.6 3.git 4.docker 5.下载jenkins 启动配置jenkins 优缺点对比 Jenkins 的优点: Jenkins 的缺点: jenkins简介 Jenkins 是一个开源的自动化服务器,可以用于自动化各种任务&…

使用Go语言的gorm框架查询数据库并分页导出到Excel实例

文章目录 基本配置配置文件管理命令行工具: Cobra快速入门基本用法 生成mock数据SQL准备gorm自动生成结构体代码生成mock数据 查询数据导出Excel使用 excelize实现思路完整代码参考 入口文件效果演示分页导出多个Excel文件合并为一个完整的Excel文件 完整代码 基本配置 配置文…