【OpenMMLab AI实战营二期笔记】第十天 底层视觉与MMEditing

news/2024/11/19 8:47:44/

1.图像超分辨率

1.1 什么是图像超分辨率?

根据从低分辨率图像重构高分辨率图像

1.2 目标:

  • 提高图像的分辨率
  • 高分图像符合低分图像的内容
  • 恢复图像的细节、产生真实的内容
    在这里插入图片描述

1.3 应用:

  • 经典游戏高清重制
  • 动画高清重制
  • 照片修复
  • 节约传输高清图像的带宽
  • 民生领域:医疗影像,卫星影像,监控系统,空中监察

1.4 类型

在这里插入图片描述

1.5 单图超分的解决思路

在这里插入图片描述

1.6 经典方法:稀疏编码 Sparse Coding

在这里插入图片描述
在这里插入图片描述
缺点:
在这里插入图片描述

1.7 深度学习时代的超分辨率算法

(1)基于卷积网络和普通损失函数:
使用卷积神经网络,端到端从低分辨率图像恢复高分辨率图像
代表算法:SRCNN与FSRCNN
(2)使用生成对抗网络
采用生成对抗网络的策略,鼓励产生细节更为真实的高分辨率图像
代表算法:SRGAN 和ESRGAN

2.基于卷积网络的模型SRCNN与FSRCNN

2.1 SRCNN(2014)

在这里插入图片描述

SRCNN模型功能的划分
SRCNN的单个卷积层有明确的物理意义:

  • 第一层:提取图像块的低层次局部特征;
  • 第二层:对低层次局部特征进行非线性变换,得到高层次特征;
  • 第三层:组合领域内的高层次特征,恢复高清图像
    在这里插入图片描述
    第一层:特征提取
    在这里插入图片描述
    在这里插入图片描述
    第二层:非线性映射
    在这里插入图片描述
    第三层:图像重构
    在这里插入图片描述
    SRCNN的训练
    在这里插入图片描述
    SRCNN的性能
    在这里插入图片描述
    SRCNN在性能和速度上全面超越深度学习前的算法
    SRCNN的速度问题
    在这里插入图片描述

2.2 Fast SRCNN(2016)

在这里插入图片描述
缩小层和放大层
在这里插入图片描述
FSRCNN的优势
在这里插入图片描述
转置卷积的缺陷
在这里插入图片描述
在这里插入图片描述
改进:次像素卷积 Subpixel convolution
在这里插入图片描述

2.3 SRResNet(2016)

在这里插入图片描述

2.4 补充知识

转置卷积
在这里插入图片描述

3.图像超分辨率中的常用损失函数

3.1 均方误差

在这里插入图片描述
在这里插入图片描述
效果:
在这里插入图片描述

3.2感知损失函数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
效果
在这里插入图片描述

4.对抗生成网络GAN简介

4.1什么是对抗生成网络?

对抗生成网络是一种基于神经网络的无监督学习模型,可以建模数据的分布,并通过采样生成新数据。
在这里插入图片描述

4.2应用

使用GAN生成图像
在这里插入图片描述
使用GAN转译图像
在这里插入图片描述
GAN应用于超分辨率
在这里插入图片描述

4.3 GAN的基本思想

图像数据在高纬空间的分布
在这里插入图片描述
用神经网络表示数据分布
在这里插入图片描述
如何学习生成器网络
在这里插入图片描述
对抗训练
在这里插入图片描述
GAN的优化目标
在这里插入图片描述

4.4 GAN模型

基于多层感知器的GAN模型
在这里插入图片描述
Deep Convolutional GAN ,DCGAN
在这里插入图片描述

4.5 GAN应用于图像超分辨率

在这里插入图片描述

5.基于GAN的模型SRGAN与ESRGAN

5.1 SRGAN 2017

在这里插入图片描述
SRGAN的训练
在这里插入图片描述

5.2 Enhanced SRGAN 2018

在这里插入图片描述
网络结构部分:使用RRDB模块替换残差模块
在这里插入图片描述
判别器部分:使用RaGAN替换GAN
在这里插入图片描述
损失部分:使用非线性激活前的响应计算感知损失
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
ESRGAN的性能比较
在这里插入图片描述

6.视频超分辨率介绍

在这里插入图片描述
在这里插入图片描述

6.1 EDVR

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
效果
在这里插入图片描述

6.2 BasicVSR 2021

在这里插入图片描述

6.3 补充知识

形变卷积
在这里插入图片描述
用于对齐的可形变卷积
在这里插入图片描述


http://www.ppmy.cn/news/404545.html

相关文章

LuaJIT Bytecode结构布局

一、Bytecode的存储结构 LuaJIT的Bytecode位宽为32位,在parse阶段用结构体BCInsLine表示,ins表示32位长的字字节码指令,line表示字节码的行号: typedef struct BCInsLine {BCIns ins; /* Bytecode instruction. */BC…

JUC高级-0614

5.LockSupport与线程中断 5.1 线程中断 蚂蚁金服面试题:如何中等一个线程,如何停止一个线程什么是中断机制 首先:一个线程不应该由其他线程来强制中断或停止,而是应该由线程自己自行停止。所以,Thread.stop, Thread.…

el-table点击单元格变成输入框,以及其自动获取焦点失效可能的原因(focus失效)

1.el-table点击单元格变成输入框 这里主要使用了el-table三个自带的方法/属性&#xff1a; <el-table:data"MesTableData"bordercell-click"clickCell":row-class-name"tableRowClassName":cell-class-name"tableCellClassName" …

React基础教程(二):React的基本使用

React基础教程(二)&#xff1a;React的基本使用 1、HelloReact 1.1 引入react基础依赖包 注意点&#xff1a;①必须要在②之前引入 <!-- 引入react核心库--><script src"../js/react.development.js"></script><!-- 引入react-dom&…

给你一棵二叉树的根节点 root,翻转这棵二叉树,并返回其根节点

public class TreeNode {int val;TreeNode left;TreeNode right;TreeNode(){}TreeNode(int val){this.val val;}public TreeNode(int val, TreeNode left, TreeNode right) {this.val val;this.left left;this.right right;} } /* 递归的进行翻转 保存原来的右子树*/ publi…

OCR识别系列之一-----场景文字识别

另一种方法应用比较广的就是深度学习方法&#xff0c;深度学习方法是将OCR识别划分为文字检测和文本识别部分 &#xff0c;这也是深度学习技术可以充分发挥功效的地方。使用比较广泛的网络结构是Differentiable Binarization CRNN。 Differentiable Binarization简称DB&#…

EasyDL OCR文字识别

这个功能还是挺吊的&#xff0c;应用场景也不少。 定制识别图片中的文字信息&#xff0c;结构化输出关键字段内容&#xff0c;极大提升OCR模型训练效率&#xff0c;满 足个性化卡证票据识别需求&#xff1b;支持公有云服务、私有化部署多种使用方式。 说白了就是一个图片里有…

利用OCR识别图像中的英文和文字

一、Tesseract—OCR简介 将图片翻译成文字一般称为光学文字识别&#xff08;Optical Character Recognition,OCR&#xff09;。可以实现OCR的底层并不多&#xff0c;目前很多库都是实用共同的几个底层OCR库&#xff0c;或者是在上面进行定制。 Tesseract是一个OCR库&#xff0…