批量规范化与ResNet-paddle

embedded/2024/11/18 4:43:14/

paddle_0">批量规范化与ResNet——paddle部分

本文部分为paddle框架以及部分理论分析,torch框架对应代码可见批量规范化与ResNet

import paddle
print("paddle version:",paddle.__version__)
paddle version: 2.6.1

批量规范化

批量规范化(Batch Normalization,简称BN)是一种在深度学习中广泛使用的技术,旨在加速深层神经网络的训练过程,同时提高模型的稳定性和泛化能力。其基本原理是在网络训练过程中,对每个小批量(mini-batch)的数据进行标准化处理,使得每一层的输入数据具有固定的均值和方差。这样做可以有效缓解内部协变量偏移问题,即网络层之间输入数据分布的变化,从而帮助网络更容易学习和收敛。

具体来说,批量规范化的过程可以归纳为以下几个步骤:

  1. 计算均值和方差:在每次训练迭代中,对于当前小批量数据,首先计算其均值和方差。这两个统计量是基于当前小批量中的所有样本计算得到的。

  2. 标准化处理:接着,利用上一步计算得到的均值和方差,对当前小批量中的每个样本进行标准化处理,即减去均值并除以标准差,使得处理后的数据具有均值为0、方差为1的分布。为了数值稳定性,通常会在分母中加上一个小的常数ε(epsilon)。

  3. 引入可学习参数:标准化处理后的数据虽然具有固定的均值和方差,但其分布可能与网络的原始输入数据分布相差较大,这可能会限制网络的表示能力。因此,批量规范化还引入了两个可学习的参数:拉伸参数(scale,γ)和偏移参数(shift,β)。这两个参数分别用于对标准化后的数据进行缩放和偏移,以恢复其原始的数据分布特性。

  4. 训练过程中的调整:在训练过程中,批量规范化层会不断根据反向传播算法更新拉伸参数和偏移参数,同时也会更新网络中的其他参数。同时,为了能够在测试阶段使用批量规范化,通常会维护一组全局的均值和方差,这些全局统计量是在训练过程中通过滑动平均的方式计算得到的。

批量规范化的数学公式可以表示为:

BN ( x i ) = γ ( x i − μ B σ B 2 + ϵ ) + β \text{BN}(x_i) = \gamma \left( \frac{x_i - \mu_\mathcal{B}}{\sqrt{\sigma_\mathcal{B}^2 + \epsilon}} \right) + \beta BN(xi)=γ(σB2+ϵ xiμB)+β

其中, x i x_i xi表示当前小批量中的第 i i i个样本, μ B \mu_\mathcal{B} μB σ B 2 \sigma_\mathcal{B}^2 σB2分别表示当前小批量的均值和方差, γ \gamma γ β \beta β分别表示拉伸参数和偏移参数, ϵ \epsilon ϵ是一个小的常数用于数值稳定性。

# 让我们测试一下批量规范化层,它对一个mini-batch的输入进行规范化。
# 测试一下
batch_norm = paddle.nn.BatchNorm1D(5) # 创建一个批量规范化层,输入的维度为1维x1 = paddle.randn((3, 5))
y1 = batch_norm(x1) # 对输入进行批量规范化
print(y1) # 输出规范化后的结果
Tensor(shape=[3, 5], dtype=float32, place=Place(gpu:0), stop_gradient=False,[[ 1.37697136, -1.39297330,  1.33283722,  1.21341109,  1.39014637],[-0.96759880,  0.48505354, -0.25698468, -1.22396541, -0.91988957],[-0.40937260,  0.90791976, -1.07585251,  0.01055432, -0.47025684]])

观察数据可以发现,batch_norm(x1)的输出结果中,对于batch中的每个样本,其均值接近于0,方差接近于1,这符合批量规范化的预期效果。读者不妨思考,当batch_size为1时,批量规范化会如何工作?

运行后可以发现程序输入输出相同。这是因为当 batch_size为1时,批量规范化计算均值为每个数本身,方差则为0,因为此时没有足够的样本来计算这些统计量。因此,在训练是批量规范化通常要求batch_size大于1。同时,在测试时,批量规范化会使用训练过程中维护的全局均值和方差,因此不需要担心batch_size的问题。

接下来,我们再测试一下批量规范化层对一个mini-batch的输入进行规范化,其中batch_size为1。

x2 = paddle.randn((1, 5))
batch_norm.eval()
y2 = batch_norm(x2)
print(x2)
print(y2)
Tensor(shape=[1, 5], dtype=float32, place=Place(gpu:0), stop_gradient=True,[[ 0.05095419,  1.10956526,  0.29212147,  0.11223148, -0.45737460]])
Tensor(shape=[1, 5], dtype=float32, place=Place(gpu:0), stop_gradient=False,[[ 0.00438103,  1.10405421,  0.29548159,  0.12629299, -0.51910108]])

数据输出发现x2和y2一样,这是因为batch_norm还未参与训练,其全局均值和方差仍为0,因此测试时batch_norm(x2)的输出与x2相同。
让我们看一下批量规范化层对于图像数据的处理吧。

batch_norm = paddle.nn.BatchNorm2D(3) # 创建一个批量规范化层,输入的样本通道数为3x1 = paddle.randn((3, 3, 1, 2)) # 创建一个随机张量,维度为3x3x1x2
y1 = batch_norm(x1) # 对输入进行批量规范化
print(y1) # 输出规范化后的结果
Tensor(shape=[3, 3, 1, 2], dtype=float32, place=Place(gpu:0), stop_gradient=False,[[[[ 0.64140540,  0.73852235]],[[ 1.54244053,  0.14188576]],[[ 1.26155853,  0.40623882]]],[[[ 0.51346081, -1.84547091]],[[-0.50799036, -1.44020164]],[[-0.45918781, -0.83757848]]],[[[-0.85237151,  0.80445397]],[[-0.65344304,  0.91730863]],[[-1.46263731,  1.09160614]]]])/opt/conda/envs/python35-paddle120-env/lib/python3.10/site-packages/paddle/nn/layer/norm.py:824: UserWarning: When training, we now always track global mean and variance.warnings.warn(

可以发现,批量规范化层对于图像数据的处理与对于一维数据的处理类似,都是对每个通道进行规范化。对这些通道的“每个”输出执行批量规范化,每个通道都有自己的拉伸(scale)和偏移(shift)参数,这两个参数都是标量。 假设我们的小批量包含 m m m个样本,并且对于每个通道,卷积的输出具有高度 h h h和宽度 w w w。 那么对于卷积层,我们在每个输出通道的 m × h × w m \times h \times w m×h×w个元素上同时执行每个批量规范化。 因此,在计算平均值和方差时,我们会收集所有空间位置的值,然后在给定通道内应用相同的均值和方差,以便在每个空间位置对值进行规范化。

ResNet

ResNet(Residual Network)是一种深度卷积神经网络,它通过引入残差连接(Residual Connection)来解决深度神经网络中的梯度消失和梯度爆炸问题。ResNet的核心思想是让网络中的每一层都学习残差映射,而不是直接学习输出。残差映射是指输入与网络输出的差值,而不是直接学习输出。通过这种方式,网络可以更容易地学习到复杂的特征表示。

ResNet的残差连接结构如下所示:

在这里插入图片描述

其中, x x x表示输入, f ( x ) − x f(x)-x f(x)x表示残差映射, f ( x ) f(x) f(x)表示网络的实际输出。通过这种方式,网络可以更容易地学习到复杂的特征表示。

接下来,我们使用CIFAR-10来训练一个ResNet模型,看看模型效果吧!
CIFAR-10数据集是一个广泛使用的图像数据集,由Hinton的学生Alex Krizhevsky和Ilya Sutskever整理,用于识别普适物体的小型数据集。CIFAR-10数据集是从一个叫做“80 million tiny images dataset”(8000万张小图数据集)中精炼剥离出来的一部分,是该数据集的子集。由于原数据集涉及争议内容,目前已被下架。该数据集主要用于机器学习领域的计算机视觉算法基准测试,特别是在图像分类任务中。

  • 数据集内容
  • 图像数量:CIFAR-10数据集包含60,000张32x32像素的彩色(3通道)图像。
  • 类别分布:分为10个类别,每个类别包含6,000张图像。具体类别包括飞机(airplane)、汽车(automobile)、鸟类(bird)、猫(cat)、鹿(deer)、狗(dog)、蛙类(frog)、马(horse)、船(ship)和卡车(truck)。
  • 数据划分:数据集被划分为50,000张训练图片和10,000张测试图片。训练图片被进一步分为5个批次(batches),每个批次包含10,000张图片。

CIFAR-10数据集包含的是现实世界中真实的物体,与手写字符数据集(如MNIST)相比,CIFAR-10的噪声更大,物体的比例、特征都不尽相同,这为识别带来很大困难。直接的线性模型(如Softmax)在CIFAR-10上表现得很差,需要更复杂的模型来实现较高的分类准确率。CIFAR-10数据集是一个经典的图像分类数据集,广泛用于计算机视觉领域的研究和教育中。尽管其识别问题在深度学习模型的帮助下已经得到了较好的解决,但它仍然是初学者和研究者了解图像分类问题的一个良好起点。

import paddle  
from paddle.vision.transforms import Compose, Resize, ToTensor, Normalize  
from paddle.vision.datasets import Cifar10  
from paddle.io import DataLoader  # 定义数据预处理  
transform = Compose([  Resize((224, 224)),  ToTensor(),  Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  
])  # 加载数据集  
train_dataset = Cifar10(mode='train', transform=transform)  
test_dataset = Cifar10(mode='test', transform=transform)  # 创建数据加载器  
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)  
test_loader = DataLoader(test_dataset, batch_size=64)
item    80/41626 [..............................] - ETA: 43s - 1ms/itemCache file /home/aistudio/.cache/paddle/dataset/cifar/cifar-10-python.tar.gz not found, downloading https://dataset.bj.bcebos.com/cifar/cifar-10-python.tar.gz 
Begin to downloaditem 41626/41626 [============================>.] - ETA: 0s - 2ms/itemDownload finished

让我们将加载好的数据放入迭代器中,并看看训练集的前几张图片和标签。

# 查看训练集的前几张图片和标签
import math
import numpy as np  
import matplotlib.pyplot as plt  num_toshow = 10
for images, labels in train_loader:print(labels[0:num_toshow])  # 打印标签# 创建一个新的figure,尺寸为10x5英寸  plt.figure(figsize=(10, 5))  for i in range(num_toshow):  # 选择第i张图片  img = images[i]  # 将图片数据放缩到[0, 255]  data_min, data_max = paddle.min(img), paddle.max(img)img = (img - data_min) / (data_max - data_min)img = img * 255  # 将张量转换为numpy数组,并确保数据类型是uint8  img = img.numpy().astype(np.uint8)  # 将图片从CHW格式转换为HWC格式  img = img.transpose((1, 2, 0))  # 在subplot中展示图片  cols = round(math.sqrt(num_toshow))plt.subplot(cols, math.ceil(num_toshow / cols), i + 1)  plt.xticks([])  plt.yticks([])  plt.grid(False)  plt.imshow(img)  plt.xlabel(f'Image {i+1}')  # 展示所有subplot  plt.show()break
Tensor(shape=[10], dtype=int64, place=Place(gpu:0), stop_gradient=True,[0, 8, 6, 9, 7, 3, 8, 2, 3, 2])

在这里插入图片描述

接下来,让我们使用一个ResNet结构的网络模型,并使用CIFAR-10数据集进行训练。我们首先看一下PyTorch自带的resnet18模型。我们可以使用pytorch可视化工具netron查看YOLO网络模型结构。
在命令行执行:
C:\Users\admin>netron
Serving at http://localhost:8080
即可在网页端打开netron
将网络模型保存为.pt,或者将现有的.pt文件导入网页即可。如果没有安装netron,需要先pip一下~:pip install netron

from paddle.vision.models import resnet18  
import paddle.nn.functional as F  # 导入预训练的ResNet18模型  
model = resnet18(pretrained=True)  # 设置模型为评估模式  
model.eval()  # 保存模型  
paddle.save(model.state_dict(), 'data/resnet18.pdparams')
100%|██████████| 69183/69183 [00:01<00:00, 57674.41it/s]

在这里插入图片描述

对于ResNet结构,读者不妨参考原论文Deep Residual Learning for Image Recognition中的介绍。如下图所示,对于一个没有残差结构的普通卷积神经网络,当网络层数更多时,网络训练和测试反而会变得更差,这是由于梯度消失和梯度爆炸问题导致的。

在这里插入图片描述
在这里插入图片描述

然而当采用残差结构时,网络训练和测试的效果会随层数增加而提升。如下图所示,下图使用了CIFAR-10数据集进行了验证。
在这里插入图片描述

接下来让我们来训练测试一下ResNet18模型。首先我们看一下模型输入输出尺寸是否正确。

out = model(images)
print(out.shape)
[64, 1000]

可以看到,原网络输出类别个数为1000,我们需要对其进行结构修改。

import paddle.nn as nn  class ResNet18_CIFAR_10(nn.Layer):  def __init__(self, output_size=10):  super(ResNet18_CIFAR_10, self).__init__()  # 定义ResNet18模型并加载预训练权重  self.resnet18 = resnet18(pretrained=True)  # 修改全连接层输出类别个数  num_ftrs = self.resnet18.fc.weight.shape[0]  self.resnet18.fc = nn.Linear(num_ftrs, output_size)  def forward(self, x):  # 前向传播  x = self.resnet18(x)  return x  
net = ResNet18_CIFAR_10()
out = net(images)
print(out.shape)
[64, 10]

接下来我们进行训练和测试。

from paddle.vision.transforms import Compose, Normalize  
import warnings  
warnings.filterwarnings('ignore')  # 忽略所有警告# 设置设备  
device = paddle.set_device('gpu' if paddle.is_compiled_with_cuda() else 'cpu')  
net = net.to(device)  # 损失函数和优化器  
criterion = paddle.nn.CrossEntropyLoss()  
optimizer = paddle.optimizer.Adam(parameters=net.parameters(), learning_rate=0.001)  num_epochs = 10  
for epoch in range(num_epochs):  for i, (images, labels) in enumerate(train_loader):  images = images.to(device)  labels = labels.to(device)  outputs = net(images)  loss = criterion(outputs, labels)  loss.backward()  optimizer.step()  optimizer.clear_grad()  if (i + 1) % 100 == 0:  print(f'Epoch [{epoch + 1}/{num_epochs}], Step [{i + 1}/{len(train_loader)}], Loss: {loss.numpy():.4f}')
Epoch [10/10], Step [700/782], Loss: 0.0456

接下来我们在测试集上对模型进行测试。

# 测试模型
net.eval() 
total = 0  
correct = 0  
for imgs, labels in test_loader():  outputs = net(imgs)  _, predicted = paddle.topk(outputs, k=1, axis=1)  total += labels.shape[0]  correct += paddle.sum(paddle.equal(predicted.reshape((1,-1)), labels)).numpy()  breakprint('Accuracy: %.2f %%' % (100 * correct / total))
Accuracy: 85.94 %

可以看到模型在测试集上具有较好的准确率。ResNet在工程上主要有以下应用领域:

  1. 图像分类

    • ResNet在图像分类任务中表现优异,尤其是在大规模数据集(如ImageNet)上取得了卓越的性能。通过在大规模数据集上进行预训练,ResNet可以学习到强大的特征表示,进而在各种图像分类任务中取得良好的结果。
  2. 目标检测

    • 在目标检测任务中,ResNet常作为骨干网络(backbone network),结合相应的检测框架(如Faster R-CNN、YOLO、SSD等)构建高性能的目标检测系统。这些系统能够准确识别图像中的目标物体,并给出其位置和类别信息。
  3. 语义分割

    • 语义分割是计算机视觉领域的一个重要任务,旨在将图像中的每个像素划分为相应的类别。ResNet在语义分割任务中也具有广泛应用,通过与全卷积网络(FCN)等结构相结合,实现对图像像素级别的精细分类。

除了计算机视觉领域,ResNet还逐渐渗透到自然语言处理、语音识别等其他领域。例如,在自然语言处理中,ResNet可用于文本分类、情感分析等任务;在语音识别中,ResNet可用于提取音频特征,提高识别率。ResNet作为一种强大的深度学习模型结构,在多个领域取得了显著成果,并展现出广阔的发展前景。未来,随着技术的不断进步和应用场景的不断拓展,ResNet有望在更多领域发挥更大作用,为人类社会的进步贡献更多力量。
,ResNet常作为骨干网络(backbone network),结合相应的检测框架(如Faster R-CNN、YOLO、SSD等)构建高性能的目标检测系统。这些系统能够准确识别图像中的目标物体,并给出其位置和类别信息。

  1. 语义分割
    • 语义分割是计算机视觉领域的一个重要任务,旨在将图像中的每个像素划分为相应的类别。ResNet在语义分割任务中也具有广泛应用,通过与全卷积网络(FCN)等结构相结合,实现对图像像素级别的精细分类。

除了计算机视觉领域,ResNet还逐渐渗透到自然语言处理、语音识别等其他领域。例如,在自然语言处理中,ResNet可用于文本分类、情感分析等任务;在语音识别中,ResNet可用于提取音频特征,提高识别率。ResNet作为一种强大的深度学习模型结构,在多个领域取得了显著成果,并展现出广阔的发展前景。未来,随着技术的不断进步和应用场景的不断拓展,ResNet有望在更多领域发挥更大作用,为人类社会的进步贡献更多力量。


http://www.ppmy.cn/embedded/138438.html

相关文章

机器学习—模型选择和训练交叉验证测试集

为机器学习算法自动选择一个好的模型&#xff0c;一旦模型的参数w和b拟合到训练集&#xff0c;训练错误可能不是算法性能的好指标&#xff0c;或者它将如何很好的推广到训练集中没有的新示例&#xff0c;对于本例&#xff0c;训练误差几乎为零&#xff0c;这可能比实际的泛化误…

提取 Docker 镜像的 Dockerfile 工具集

在 Docker 开发和运维过程中,我们经常需要分析或重建已有镜像的 Dockerfile。无论是为了理解镜像的构建过程、优化镜像大小,还是出于安全审计的需求,能够从现有镜像中提取或重建 Dockerfile 都是一项非常有用的技能。本文将介绍一系列可以帮助我们完成这项任务的工具。 © …

YOLOv8改进,YOLOv8通过RFAConv卷积创新空间注意力和标准卷积,包括RFCAConv, RFCBAMConv,二次创新C2f结构,助力涨点

摘要 空间注意力已广泛应用于提升卷积神经网络(CNN)的性能,但它存在一定的局限性。作者提出了一个新的视角,认为空间注意力机制本质上解决了卷积核参数共享的问题。然而,空间注意力生成的注意力图信息对于大尺寸卷积核来说是不足够的。因此,提出了一种新型的注意力机制—…

C++网络编程之SSL/TLS加密通信

概述 在互联网时代&#xff0c;数据的安全性变得尤为重要。随着网络安全威胁的不断增加&#xff0c;确保信息传输过程中的机密性、完整性和可用性成为了开发者必须考虑的关键因素。在C网络编程中&#xff0c;使用SSL/TLS加密通信是一种常见的做法。它允许客户端和服务器之间通过…

Springboot maven常见依赖、配置文件笔记

pom.xml文件 一、<parent> 在Maven项目中&#xff0c;pom.xml 文件中的 <parent> 元素用于定义父项目的坐标。使用 <parent> 可以实现继承机制&#xff0c;子项目可以从父项目继承配置信息&#xff0c;比如依赖管理、插件配置等。这样可以避免在多个子项目…

AJAX学习(24.11.1-24.11.14)(包含HTTP协议)

AJAX学习&#xff08;24.11.1-11.14) 来源&#xff1a; 传智 | 高校学习平台-首页 传智播课&#xff1a;黑马程序员 1.服务器和客户端 1.服务器&#xff1a;存放和对外提供资源的电脑。 2.客户端&#xff08;用户&#xff09;&#xff1a;获取和消费资源的电脑。&#xff0…

linux-文件的读写

操作系统一切皆文件&#xff0c;访问文件实际上就是访问硬件&#xff0c;因为文件都保存在硬件上&#xff0c;或者文件就是硬件&#xff0c;而要访问硬件&#xff0c;就需要操作系统提供的系统调用&#xff0c;所以c/c函数中关于访问硬件设备&#xff0c;基本上是由系统调用封装…

【Linux庖丁解牛】—Linux基本指令(下)!

目录 1、grep指令 2、zip/unzip指令 3、sz/rz指令 4、tar指令 ​编辑 5、scp指令 6、bc指令 7、uname –r指令 8、重要的几个热键 9、关机 10、完结撒花 1、grep指令 grep是文本过滤器&#xff0c;其作用是在指定的文件中过滤出包含你指定字符串的内容&#xff0c;…