深度学习从入门到精通——感知损失介绍及基本实现

news/2025/1/22 2:12:09/

Perceptual Losses

      • 感知损失(Perceptual Loss)
        • 感知损失的定义
      • 图像转换问题(Image Transformation Tasks)
      • 现有方法
      • 代码解释
      • 感知损失(Perceptual Loss)
        • 1. 感知损失的背景
        • 2. 感知损失的定义
        • 3. 感知损失的优点
        • 4. 应用场景
      • 5. 总结

观点:不仅仅在输入输出风格相似,在特征上面也应该具有相似性。

感知损失(Perceptual Loss)

感知损失是一种用于图像转换任务的损失函数,旨在捕捉图像之间的高层次特征差异,而不仅仅是像素级的差异。传统的图像转换方法通常使用像素级的损失(如均方误差 M S E MSE MSE)来评估生成图像与真实图像之间的相似性。这种方法在训练过程中有效,但在生成高质量图像时可能无法捕捉到人类视觉系统所感知的细微差别。

感知损失的定义

感知损失通常基于预训练的深度神经网络(如 V G G VGG VGG 网络)提取的特征。具体来说,感知损失可以定义为生成图像与目标图像在某些高层特征空间中的差异。公式如下:

L p e r c e p t u a l = ∑ l 1 N l ∥ ϕ l ( I g e n e r a t e d ) − ϕ l ( I t a r g e t ) ∥ 2 L_{perceptual} = \sum_{l} \frac{1}{N_l} \| \phi_l(I_{generated}) - \phi_l(I_{target}) \|^2 Lperceptual=lNl1ϕl(Igenerated)ϕl(Itarget)2

其中:

  • L p e r c e p t u a l L_{perceptual} Lperceptual 是感知损失。
  • ϕ l \phi_l ϕl 是预训练网络在第 l l l 层提取的特征。
  • I g e n e r a t e d I_{generated} Igenerated 是生成的图像。
  • I t a r g e t I_{target} Itarget 是目标图像。
  • N l N_l Nl 是第 l l l 层特征的维度。

通过优化感知损失,模型能够生成在视觉上更接近目标图像的结果。

图像转换问题(Image Transformation Tasks)

图像转换任务涉及将输入图像转换为另一种形式的图像,这可以包括多种应用,如:

  • 图像风格迁移:将一幅图像的风格应用到另一幅图像上。
  • 超分辨率重建:将低分辨率图像转换为高分辨率图像。
  • 图像修复:填补图像中的缺失部分或去除不需要的对象。
  • 图像合成:将多个图像合成一个新的图像。

现有方法

现有的图像转换方法通常采用监督学习的方式,训练一个前向传播的神经网络。以下是一些常见的方法:

  1. 卷积神经网络(CNN)

    • 使用 C N N CNN CNN 进行图像转换,通常通过像素级损失(如 L 1 L1 L1 L 2 L2 L2 损失)来训练网络。
  2. 生成对抗网络(GAN)

    • G A N s GANs GANs 在图像转换任务中表现出色,尤其是在生成高质量图像方面。 G A N s GANs GANs 通过对抗训练,使生成器和判别器相互竞争,从而提高生成图像的质量。
  3. 条件生成对抗网络(cGAN)

    • 条件 G A N s GANs GANs 在输入图像的基础上生成目标图像,能够更好地控制生成过程。
  4. 图像风格迁移

    • 使用感知损失进行风格迁移,通过优化生成图像的高层特征与目标风格图像的高层特征之间的差异。

在图像转换任务中,除了确保输入和输出在像素级别上相似外,还应关注它们在特征空间中的相似性。通过使用感知损失,可以更好地捕捉到人类视觉系统所感知的细微差别,从而生成更高质量的图像。这种方法不仅关注图像的外观,还考虑了图像的内容和结构,使得生成的图像在视觉上更具吸引力和真实感。

感知损失为图像转换任务提供了一种新的视角,通过关注高层特征而非仅仅是像素级的差异,能够生成更符合人类视觉感知的高质量图像。随着深度学习技术的发展,感知损失在图像处理领域的应用将会越来越广泛。

这段代码定义了一个自定义的 VGG19 模型类,主要用于提取图像特征。该模型基于 PyTorch 框架,并使用了预训练的 VGG19 网络。以下是对代码的逐行解释:

代码解释

  1. 导入必要的库

    import torch
    from torchvision import models
    from torch import nn
    
    • torch 是 PyTorch 的核心库,用于张量操作和深度学习
    • torchvision.models 提供了多种预训练的模型,包括 VGG19。
    • torch.nn 是 PyTorch 中的神经网络模块,提供了构建神经网络所需的各种层和功能。
  2. 定义 Vgg19 类

    class Vgg19(nn.Module):
    
    • 定义一个名为 Vgg19 的类,继承自 nn.Module,这是所有 PyTorch 模型的基类。
  3. 初始化方法

    def __init__(self, requires_grad=False):super(Vgg19, self).__init__()
    
    • __init__ 方法是类的构造函数,接受一个参数 requires_grad,用于控制是否需要计算梯度。
    • super(Vgg19, self).__init__() 调用父类的构造函数,以初始化 nn.Module
  4. 加载预训练的 VGG19 模型

    self.vgg = models.vgg19(pretrained=True).features
    
    • 使用 torchvision 中的 models.vgg19 函数加载预训练的 VGG19 模型,并提取其特征部分(即卷积层)。
  5. 定义特征提取的切片

    self.slice1 = nn.Sequential()
    self.slice2 = nn.Sequential()
    self.slice3 = nn.Sequential()
    
    • 创建三个 nn.Sequential 对象,用于存储 VGG19 模型的不同层次的特征提取。
  6. 将 VGG19 的层分配到切片

    for x in range(7):self.slice1.add_module(str(x), self.vgg[x])
    for x in range(7, 21):self.slice2.add_module(str(x), self.vgg[x])
    for x in range(21, 30):self.slice3.add_module(str(x), self.vgg[x])
    
    • 将 VGG19 的前 7 层(包括卷积层和激活层)添加到 slice1
    • 将第 7 到第 21 层添加到 slice2
    • 将第 21 到第 30 层添加到 slice3
  7. 设置参数的梯度计算

    if not requires_grad:for param in self.parameters():param.requires_grad = False
    
    • 如果 requires_gradFalse,则将模型中所有参数的 requires_grad 属性设置为 False,这样在反向传播时不会计算这些参数的梯度。
  8. 前向传播方法

    def forward(self, x):h_relu1 = self.slice1(x)h_relu2 = self.slice2(h_relu1)h_relu3 = self.slice3(h_relu2)return [h_relu1, h_relu2, h_relu3]
    
    • forward 方法定义了模型的前向传播过程。
    • 输入 x 经过 slice1slice2slice3,分别得到三个中间特征输出 h_relu1h_relu2h_relu3
    • 返回这三个特征图的列表。
  9. 主程序

    if __name__ == '__main__':model = Vgg19()x = torch.randn(1, 3, 224, 224)y1, y2, y3 = model(x)print(y1.shape)print(y2.shape)print(y3.shape)
    
    • 在主程序中,创建 Vgg19 模型的实例。
    • 生成一个随机输入张量 x,形状为 ( 1 , 3 , 224 , 224 ) (1, 3, 224, 224) (1,3,224,224),表示一张 224 × 224 224 \times 224 224×224 像素的 RGB 图像。
    • 将输入张量传入模型,得到三个特征图 y1y2y3
    • 打印每个特征图的形状。
      这段代码实现了一个自定义的 VGG19 特征提取模型,能够从输入图像中提取不同层次的特征。通过使用预训练的 VGG19 模型,用户可以利用其在大规模数据集上学习到的特征表示,进行图像处理、风格迁移、特征提取等任务。

感知损失(Perceptual Loss)

感知损失是一种用于训练深度学习模型的损失函数,特别是在图像生成、图像超分辨率、图像风格迁移等任务中。与传统的像素级损失(如均方误差损失)不同,感知损失旨在捕捉图像的高层次特征,从而更好地反映人类视觉系统对图像质量的感知。

1. 感知损失的背景

在许多计算机视觉任务中,使用像素级损失(例如,均方误差损失)可能导致生成的图像在视觉上不够自然或不够真实。这是因为像素级损失只关注图像的每个像素值,而忽略了图像的整体结构和内容。因此,感知损失应运而生。

2. 感知损失的定义

感知损失通常通过以下步骤计算:

  1. 特征提取:使用预训练的卷积神经网络(如 VGG 网络)提取输入图像和目标图像的特征。通常选择网络的某些中间层作为特征提取层。

  2. 计算特征差异:计算生成图像的特征与真实图像的特征之间的差异。常用的差异度量包括均方误差(MSE)或其他距离度量。

感知损失可以表示为:
L p e r c e p t u a l = ∑ l 1 N l ∥ ϕ l ( I g e n e r a t e d ) − ϕ l ( I t a r g e t ) ∥ 2 L_{perceptual} = \sum_{l} \frac{1}{N_l} \left\| \phi_l(I_{generated}) - \phi_l(I_{target}) \right\|^2 Lperceptual=lNl1ϕl(Igenerated)ϕl(Itarget)2
其中:

  • L p e r c e p t u a l L_{perceptual} Lperceptual 是感知损失。
  • ϕ l \phi_l ϕl 是在层 l l l 提取的特征。
  • I g e n e r a t e d I_{generated} Igenerated 是生成的图像。
  • I t a r g e t I_{target} Itarget 是目标图像。
  • N l N_l Nl 是层 l l l 的特征数量。
3. 感知损失的优点
  • 更符合人类视觉感知:感知损失关注图像的高层次特征,使得生成的图像在视觉上更自然。
  • 改善图像质量:在图像生成任务中,使用感知损失可以显著提高生成图像的质量,减少伪影和失真。
  • 适应性强:感知损失可以与其他损失函数(如对抗损失、内容损失等)结合使用,以进一步提升模型性能。
4. 应用场景

感知损失在多个领域得到了广泛应用,包括但不限于:

  • 图像超分辨率:在图像超分辨率任务中,感知损失帮助生成更清晰、更细腻的高分辨率图像。
  • 图像风格迁移:在风格迁移任务中,感知损失用于保持内容图像的结构,同时将风格图像的风格应用于内容图像。
  • 图像修复:在图像修复任务中,感知损失可以帮助生成更自然的修复结果。

5. 总结

感知损失是一种有效的损失函数,能够更好地捕捉图像的高层次特征,改善生成图像的质量。通过与传统损失函数的结合,感知损失在图像生成和处理任务中展现出了良好的性能。随着深度学习技术的不断发展,感知损失的应用场景也在不断扩展。

文章来源:https://blog.csdn.net/weixin_42917352/article/details/121720983
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ppmy.cn/news/1522107.html

相关文章

[数据集][目标检测]抽烟检测数据集VOC+YOLO格式22559张2类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):22559 标注数量(xml文件个数):22559 标注数量(txt文件个数):22559 标…

MATLAB中的线性规划与非线性规划

目录 1. 引言 2. 线性规划(LP) 2.1 线性规划的基本概念 2.2 MATLAB中的线性规划求解 2.3 线性规划的应用 3. 非线性规划(NLP) 3.1 非线性规划的基本概念 3.2 MATLAB中的非线性规划求解 3.3 非线性规划的应用 4. 线性规划…

Opencv中的直方图(2)计算图像的直方图函数calcHist()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 计算一组数组的直方图。 函数 cv::calcHist 计算一个或多个数组的直方图。用于递增直方图bin的元组的元素是从相同位置的相应输入数组中获取的。…

【kubernetes】配置管理中心Configmap运用

一,介绍 Configmap(简写 cm)是k8s中的资源对象,用于保存非机密性的配置的,数据可以用key/value键值对的形式保存,也可通过文件的形式保存。 【局限性】:在ConfigMap不是用来保存大量数据的&am…

什么是银行挤兑

银行挤兑是指大量银行客户因为对银行失去信心,担心银行可能无法满足其提款需求,而纷纷在短时间内集中到银行提取现金或转账的行为。这种情况可能会导致银行现金储备迅速减少,进而影响银行的正常运营和金融市场的稳定。 银行挤兑通常发生在以下…

中秋将至,邮寄中秋礼品怎么才安心?

中秋节,是中华民族的传统佳节,承载着人们对团圆的期盼和对亲人的思念。在这个温馨的节日里,中秋礼品成为了许多人传递情感的方式。 在这个数字化的时代,虽然一通电话、一个视频就能拉近人与人之间的距离,但一份实实在在…

Oracle中关于not in的替代方案

Oracle优化连接查询速度 样例exists模式Left join模式 今天在使用dblink的时候,多表关联时发现条件中使用 not in 作为条件,会极大的影响查询速度,尤其是not in中的表数据量很大时,简直是一种灾难;经过翻阅资料&#…

opencv学习:形态学操作和边缘检测算子

cv2.morphologyEx() 是 OpenCV 库中的一个函数,用于执行更复杂的形态学操作。这个函数可以执行开运算、闭运算、梯度运算、膨胀、腐蚀以及顶帽和黑帽转换等。这些操作通常用于图像预处理,如去除噪声、平滑边界、突出特征等。 dst cv2.morphologyEx(src…