DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration

news/2024/11/19 15:10:54/

DR2: Diffusion-based Robust Degradation Remover for Blind Face Restoration (Paper reading)

Zhixin Wang, Shanghai Jiao Tong University, CH, CVPR2023, Cited:0, Code, Paper

1. 前言

在这里插入图片描述
传统的盲脸部修复通常使用预定义的退化模型来合成降质的低质量数据进行训练,而实际世界中可能出现更复杂的情况。假设的退化模型与实际情况之间的差距会影响修复效果,输出结果中经常出现伪影。然而,为了覆盖实际情况,将每种类型的退化都包含在训练数据中是昂贵且不可行的。为了解决这个鲁棒性问题,我们提出了基于扩散的鲁棒退化去除器(DR2),首先将退化图像转化为粗糙但退化不变的预测,然后利用增强模块将粗糙预测恢复为高质量图像。通过利用表现良好的去噪扩散概率模型,我们的DR2将输入图像扩散到带有高斯噪声的噪声状态,各种类型的退化转化为高斯噪声,然后通过迭代去噪步骤捕捉语义信息。因此,DR2对常见的退化(例如模糊、调整大小、噪声和压缩)具有鲁棒性,并且与不同设计的增强模块兼容。在各种设置下的实验证明,我们的框架在严重退化的合成和实际世界数据集上优于最先进的方法。

2. 整体思想

ILVR的采样效果一般,本文算是对其方法的改进。先说结果,我测试感觉结果非常一般,创新型也一般,Git上没人关注,不知道为什么能发CVPR,运气运气。整体思想就是控制去噪的步数做个截断,然后对估计出的图像(很平滑)使用一个增强网络增强。

3. 方法

整体盲脸部修复框架DR2E由基于扩散的鲁棒退化去除器(DR2)和增强模块(E)组成。在第一阶段中,DR2将退化图像转化为粗糙、平滑和视觉上清晰的中间结果,这些结果属于一个退化不变的分布(图1中的第4列)。在第二阶段中,退化不变的图像通过增强模块进一步处理,以获得高质量的细节。通过这种设计,增强模块与各种修复方法的设计兼容,以寻求最佳的修复质量,确保我们的DR2E既具有强大的鲁棒性又具有高质量。第一阶段为了从降至 y y y中获得估计图像 x ^ 0 \hat x_0 x^0,并在第二阶段对估计的图像增强,目标是最大化以下似然:
p ψ , ϕ = ∫ p ψ ( x ∣ x ^ 0 ) p ϕ ( x ^ 0 ∣ y ) d x ^ 0 = E x ^ 0 ∼ p ϕ ( x ^ 0 ∣ y ) [ p ψ ( x ∣ x ^ 0 ) ] (1) \begin{aligned} p_{\psi,\phi}&=\int p_{\psi} (x|\hat x_0)p_\phi(\hat x_0|y)d \hat x_0 \tag{1} \\ &=\mathbb{E}_{\hat x_0 \sim p_\phi(\hat x_0|y)}[p_\psi(x|\hat x_0)] \end{aligned} pψ,ϕ=pψ(xx^0)pϕ(x^0y)dx^0=Ex^0pϕ(x^0y)[pψ(xx^0)](1)
其中, p ϕ ( x ^ 0 ∣ y ) p_\phi(\hat x_0|y) pϕ(x^0y)对应着复原模型, p ψ ( x ∣ x ^ 0 ) p_\psi(x|\hat x_0) pψ(xx^0)对应着增强模块。对于第一阶段,我们提出了一个重要的假设,并提出了一种基于扩散的方法来消除退化,而不是直接学习从 y y y x x x的映射(通常涉及预定义的退化模型 z z z)。

3.1 基于扩散的降质移除

假设:扩散过程中,存在一个中间步 τ \tau τ,且 t > τ t>\tau t>τ,那么存在 q ( x t ∣ x ) q(x_t|x) q(xtx) q ( y t ∣ y ) q(y_t|y) q(yty)在低频部分是接近的,此外,存在 ω > τ \omega > \tau ω>τ使得 q ( x ω ∣ x ) ≈ q ( x ω ∣ x ) q(x_\omega|x)\approx q(x_\omega|x) q(xωx)q(xωx),这个假设的意思的,你前向过程加入了噪声破坏了图像的频率成分,而噪声图同样也是,在视觉上对某些频率部分是难以分辨的,但是这个假设不够强,只有在噪声足够大的时候才可以。根据这个假设我们可以获得:
p ϕ ( x ^ 0 ∣ y ) = ∫ p ( x ^ 0 ∣ x τ ) p ( x τ ∣ y ω ) p ( x ω ∣ y ) d x τ d y ω ≈ ∫ p ( x ^ 0 ∣ x τ ) p ( x τ ∣ x ω ) p ( x ω ∣ x ) d x τ d x ω \begin{aligned} p_\phi(\hat x_0|y)&=\int p_(\hat x_0|x_\tau)p(x_\tau|y_\omega)p(x_\omega|y)d x_\tau dy_\omega \\ & \approx \int p_(\hat x_0|x_\tau)p(x_\tau|x_\omega)p(x_\omega|x)d x_\tau dx_\omega \end{aligned} pϕ(x^0y)=p(x^0xτ)p(xτyω)p(xωy)dxτdyωp(x^0xτ)p(xτxω)p(xωx)dxτdxω

  1. ω \omega ω处初始化条件:将降质图像 y y y通过扩散模型的前向过程获得 x : = y ω x:=y_\omega x:=yω
  2. 进行一次逆扩散过程获得 x t − 1 x_{t-1} xt1,其中( τ + 1 ≤ t ≤ ω \tau+1 \le t \le \omega τ+1tω),同时对降质图像 y y y进行一次前向过程采样得到 y t − 1 y_{t-1} yt1。根据假设,我们替换 x t − 1 x_{t-1} xt1的低频部分为 y t − 1 y_{t-1} yt1。和ILVR一样。
  3. 在第 τ \tau τ步截断输出:当 t t t逐渐变小时,噪声强度变得温和且 q ( x t ∣ x ) q(x_t|x) q(xtx) q ( y t ∣ y ) q(y_t|y) q(yty)之间的举例会逐渐变大,因此去噪过程需要在 t t t足够小的时候进行阶段。我们直接在第 τ \tau τ步估计出 x 0 x_0 x0

3.2 图像增强

对于DR2的输出,恢复高质量的细节只需要训练增强模块 p ψ ( x ∣ x ^ 0 ) p_\psi(x|\hat x_0) pψ(xx^0)。在这里,我们不假设这个模块的具体方法或架构。任何可以训练成将低质量图像映射到高质量图像的神经网络都可以插入我们的框架中。并且利用所提出的损失函数对增强模块进行独立训练。

4. 实验

实施DR2和增强模块在FFHQ数据集上独立训练,该数据集包含70000张高质量人脸图像。我们将ILVR提出的预训练DDPM用于我们的DR2。我们选择SPARNetHD和VQFR作为增强模块的两种替代架构。

4.1 指标和可视化对比

在这里插入图片描述
在这里插入图片描述


http://www.ppmy.cn/news/75559.html

相关文章

如何减少电脑内存占用?

内存(Memory)是计算机一个重要的组成部件,也称为内存储器或主存储器。它可以暂时存放CPU中运算的数据,以及与硬盘等外部存储器交换的数据,是CPU和硬盘之间的桥梁。若电脑内存占用过高,这会影响到电脑运行的速度,那该如…

2021上半年

2021上半年 a 程序计数器pc d 更正一下:都是支持流水线技术的 DMA传送数据不需要CPU干预,和io设备并行工作(存储周期) c c c b c 关于TLS: B B D A D 保护的是:软件程序和文档 D B C B 前向传播&#xff1…

身份证号和手机号的正则表达式

1. 身份证号正则表达式如下: /^([1-9]\d{5})(19|20)\d{2}((0[1-9])|(1[0-2]))(([0-2][1-9])|10|20|30|31)\d{3}[0-9Xx]$/这个正则表达式可以匹配到18位身份证号码,其中: 前6位是地区码,第1位不能为0;接下来的4位是年…

一款适合国内多场景的免费ChatGPT镜像网站【建议收藏】

随着人工智能技术的不断进步,智能问答系统正逐渐成为我们生活中必不可少的助手。而在这个领域中,ChatGPT中文版-知否AI问答凭借其出色的性能和广泛的应用场景,成为了引领智能问答新时代的重要代表。本文将带您深入了解ChatGPT中文版-知否AI问…

JVM系列-第12章-垃圾回收器

垃圾回收器 GC 分类与性能指标 垃圾回收器概述 垃圾收集器没有在规范中进行过多的规定,可以由不同的厂商、不同版本的JVM来实现。 由于JDK的版本处于高速迭代过程中,因此Java发展至今已经衍生了众多的GC版本。 从不同角度分析垃圾收集器,…

软考中级数据库系统工程师-第6-7章 数据库技术基础关系数据库

目录 1.数据库系统基本概念 2.数据库系统的三级模式结构 3.两级映像 4.数据的独立性 5.E-R模型 6.关系的相关名词 7.关系代数运算 8.关系数据库设计基础知识 9.规范化 1.数据库系统基本概念 1)数据库系统(DBS)是一个采用了数据库技术,有组织地、…

RabbitMQ日常使用小结

一、使用场景 削峰、解耦、异步。 基于AMQP(高级消息队列协议)协议来统一数据交互,通过channel(网络信道)传递信息。erlang语言开发,并发量12000,支持持久化,稳定性好,集群不支持动态扩展。 RabbitMQ的基本概念 二、组成及工作流…

软考初级程序员上午单选题(17)

1、在计算机术语中,ROM指的是______。 A.随机存储器 B.外存储器 C.只读存储器 D.显示器 2、平均无故障时间(MTBF)用于描述计算机的______。 A.可维护性 B.可靠性 C.性能价格比 D&am…