图像修复(Image Restoration)前沿

news/2024/11/26 5:28:25/

背景与现状

图像修复是一个长期存在的低层次视觉问题,旨在从损坏的输入图像中获取高质量图像,例如去模糊、去噪、去雾、去雨以及超分辨等。
L = D ( H ) + γ \mathbf{L} = \mathbf{D}(\mathbf{H}) + \gamma L=D(H)+γ
其中,L是低质量图像,H是高质量图像, D , γ D, \gamma D,γ分别表示成像和传输过程中的退化函数和噪声

图像修复是一个典型的不可逆问题,因为任何原始输入都有很多候选项。为了限定无限的可行解,传统方法通过对不同的修复任务设计不同的先验知识,将图像修复转化为一个MAP问题:
H ^ = arg max ⁡ H log ⁡ P ( L ∣ H ) + log ⁡ P ( H ) \mathbf{\hat{H}}= \underset {\mathbf{H}} { \operatorname {arg\,max}} \log P(\mathbf{L}|\mathbf{H}) + \log P(\mathbf{H}) H^=HargmaxlogP(LH)+logP(H)

但是设计这样一个先验,通常具有很大的挑战,而且不可泛化

随着深度学习方法在高层次视觉任务中的使用,以及数据规模的增加,能够隐式的学习通用先验的CNN以及Transformer开始用于解决图像修复任务,并取得了SOTA效果。

目前图像修复的网络模型架构主要包括残差块、多尺度、多阶段、编码器-解码器。

当前面对的问题:图像修复的质量(空间细节、上下文信息);图像修复的模型系统复杂性

主流方法

残差块结构 (2018年 ESRGAN)

在这里插入图片描述
在这里插入图片描述

多尺度结构 (2020 MIPNet 2022 MIRNetV2)

在这里插入图片描述主要创新点:DAU和SKFF

在这里插入图片描述

在这里插入图片描述

多阶段结构 (2021MPRNet)

在这里插入图片描述
主要创新点: SAM
在这里插入图片描述

编码器-解码器结构 (2022Restormer)

在这里插入图片描述
主要创新点: 线性复杂度的注意力机制(就是转置),门控前馈神经网络

编码器-解码器结构(2022Uformer)

在这里插入图片描述
主要创新点 : LeFF和modulator (对这个模块的作用存疑,提升的太大了)

编码器-解码器结构(2022 NAFNet)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
主要创新点:移除或替代了非线性激活函数,使模型系统复杂性降低。主要是提出了一个新的baseline,后续可以在其基础上进行做一些工作。

总结

感觉图像修复真的太吃设备了,动不动就跑几周,时间成本太大了


http://www.ppmy.cn/news/49745.html

相关文章

卧槽!新来的妹纸rm -rf把公司整个数据库删没了,整个项目组慌了~

经历了两天不懈努力,终于恢复了一次误操作删除的生产服务器数据。 对本次事故过程和解决办法记录在此,警醒自己,也提示别人莫犯此错。 也希望遇到问题的朋友能找到一丝灵感解决问题。 事故背景 安排一个妹子在一台生产服务器上安装 Oracl…

DataBinding 大坑总结(网上我暂时搜不到解决方法)

在使用多Module中使用DataBinding会引发一些奇怪的问题,最近好好的腾出时间来折腾这些奇怪的问题: 1:如果当Module启动DataBinding重启AS启动报错的话,就启用允许多行代码 android { defaultConfig {multiDexEnabled true} } de…

CMake基本使用

重要指令 cmake_minimum_required:指定CMake最小版本要求 project:定义工程名称,并可指定语言 set:显示的定义变量 include_directories:向工程添加多个特定头文件搜素路径 link_directories:向工程添加多个特定库文件…

编译器的过度优化

前言 编译器在进行优化的时候,可能为了效率而交换不相关的两条相邻指令的执行顺序。也就是指令重排,这也就引发了一些问题,下面就带大家看两个经典的问题。 单例模式 第一个例子来自单例模式的双加锁,下面是典型的双加锁的单例…

使用FFMPEG库将PCM编码为AAC

准备 ffmpeg 版本4.4 准备一段48000Hz 2 channel f32le 格式的PCM原始数据 这里我们直接使用ffmpeg命令行提取 ffmpeg -i beautlWorld.mp4 -ar 48000 -ac 2 -f f32le 48000_2_f32le.pcm -ar 采样率 -ac 音频通道 -f f32le 音频样本数据存储格式(f32 ---- float…

如何高效提高倾斜摄影三维模型顶层合并的技术方法分析

如何高效提高倾斜摄影三维模型顶层合并的技术方法分析 1、倾斜摄影三维模型顶层合并 1.1倾斜摄影三维模型是一种基于倾斜摄影技术,通过多个角度拍摄同一区域的影像,利用计算机图像处理和三维重建技术生成的三维地理信息数据。由于一个大区域可能需要多块…

网络安全与攻防-同源策略

目录 同源策略(浏览器控制) 定义 思考: 跨域的N种方法 Jsonp 跨域资源共用(CORS) 预检(OPTIONS请求) 代理服务(优先考虑) 实战CORS(Fetchnode.js&…

【Qt】QString与QChar的源码学习及二者与Unicode的关系【2023.04.20】

简介 本文是关于QString乱码的一些补充。主要就两点,QChar、QString底层存储的字符都是16进制的Unicode编码。会结合源码进行“刨根问祖”。 QChar QChar对应16位的Unicode字符集。 The QChar class provides a 16-bit Unicode character. In Qt, Unicode charact…