批量规范化与ResNet-paddle

paddle_0">批量规范化与ResNet——paddle部分

本文部分为paddle框架以及部分理论分析，torch框架对应代码可见批量规范化与ResNet

import paddle
print("paddle version:",paddle.__version__)

paddle version: 2.6.1

批量规范化

批量规范化（Batch Normalization，简称BN）是一种在深度学习中广泛使用的技术，旨在加速深层神经网络的训练过程，同时提高模型的稳定性和泛化能力。其基本原理是在网络训练过程中，对每个小批量（mini-batch）的数据进行标准化处理，使得每一层的输入数据具有固定的均值和方差。这样做可以有效缓解内部协变量偏移问题，即网络层之间输入数据分布的变化，从而帮助网络更容易学习和收敛。

具体来说，批量规范化的过程可以归纳为以下几个步骤：

计算均值和方差：在每次训练迭代中，对于当前小批量数据，首先计算其均值和方差。这两个统计量是基于当前小批量中的所有样本计算得到的。
标准化处理：接着，利用上一步计算得到的均值和方差，对当前小批量中的每个样本进行标准化处理，即减去均值并除以标准差，使得处理后的数据具有均值为0、方差为1的分布。为了数值稳定性，通常会在分母中加上一个小的常数ε（epsilon）。
引入可学习参数：标准化处理后的数据虽然具有固定的均值和方差，但其分布可能与网络的原始输入数据分布相差较大，这可能会限制网络的表示能力。因此，批量规范化还引入了两个可学习的参数：拉伸参数（scale，γ）和偏移参数（shift，β）。这两个参数分别用于对标准化后的数据进行缩放和偏移，以恢复其原始的数据分布特性。
训练过程中的调整：在训练过程中，批量规范化层会不断根据反向传播算法更新拉伸参数和偏移参数，同时也会更新网络中的其他参数。同时，为了能够在测试阶段使用批量规范化，通常会维护一组全局的均值和方差，这些全局统计量是在训练过程中通过滑动平均的方式计算得到的。

批量规范化的数学公式可以表示为：

$\text{BN}(x_i) = \gamma \left( \frac{x_i - \mu_\mathcal{B}}{\sqrt{\sigma_\mathcal{B}^2 + \epsilon}} \right) + \beta$

其中， $x_i$ 表示当前小批量中的第 $i$ 个样本， $\mu_\mathcal{B}$ 和 $\sigma_\mathcal{B}^2$ 分别表示当前小批量的均值和方差， $\gamma$ 和 $\beta$ 分别表示拉伸参数和偏移参数， $\epsilon$ 是一个小的常数用于数值稳定性。

# 让我们测试一下批量规范化层，它对一个mini-batch的输入进行规范化。
# 测试一下
batch_norm = paddle.nn.BatchNorm1D(5) # 创建一个批量规范化层，输入的维度为1维x1 = paddle.randn((3, 5))
y1 = batch_norm(x1) # 对输入进行批量规范化
print(y1) # 输出规范化后的结果

Tensor(shape=[3, 5], dtype=float32, place=Place(gpu:0), stop_gradient=False,[[ 1.37697136, -1.39297330,  1.33283722,  1.21341109,  1.39014637],[-0.96759880,  0.48505354, -0.25698468, -1.22396541, -0.91988957],[-0.40937260,  0.90791976, -1.07585251,  0.01055432, -0.47025684]])

观察数据可以发现，batch_norm(x1)的输出结果中，对于batch中的每个样本，其均值接近于0，方差接近于1，这符合批量规范化的预期效果。读者不妨思考，当batch_size为1时，批量规范化会如何工作？

运行后可以发现程序输入输出相同。这是因为当 batch_size为1时，批量规范化计算均值为每个数本身，方差则为0，因为此时没有足够的样本来计算这些统计量。因此，在训练是批量规范化通常要求batch_size大于1。同时，在测试时，批量规范化会使用训练过程中维护的全局均值和方差，因此不需要担心batch_size的问题。

接下来，我们再测试一下批量规范化层对一个mini-batch的输入进行规范化，其中batch_size为1。

x2 = paddle.randn((1, 5))
batch_norm.eval()
y2 = batch_norm(x2)
print(x2)
print(y2)

Tensor(shape=[1, 5], dtype=float32, place=Place(gpu:0), stop_gradient=True,[[ 0.05095419,  1.10956526,  0.29212147,  0.11223148, -0.45737460]])
Tensor(shape=[1, 5], dtype=float32, place=Place(gpu:0), stop_gradient=False,[[ 0.00438103,  1.10405421,  0.29548159,  0.12629299, -0.51910108]])

数据输出发现x2和y2一样，这是因为batch_norm还未参与训练，其全局均值和方差仍为0，因此测试时batch_norm(x2)的输出与x2相同。
让我们看一下批量规范化层对于图像数据的处理吧。

batch_norm = paddle.nn.BatchNorm2D(3) # 创建一个批量规范化层，输入的样本通道数为3x1 = paddle.randn((3, 3, 1, 2)) # 创建一个随机张量，维度为3x3x1x2
y1 = batch_norm(x1) # 对输入进行批量规范化
print(y1) # 输出规范化后的结果

Tensor(shape=[3, 3, 1, 2], dtype=float32, place=Place(gpu:0), stop_gradient=False,[[[[ 0.64140540,  0.73852235]],[[ 1.54244053,  0.14188576]],[[ 1.26155853,  0.40623882]]],[[[ 0.51346081, -1.84547091]],[[-0.50799036, -1.44020164]],[[-0.45918781, -0.83757848]]],[[[-0.85237151,  0.80445397]],[[-0.65344304,  0.91730863]],[[-1.46263731,  1.09160614]]]])/opt/conda/envs/python35-paddle120-env/lib/python3.10/site-packages/paddle/nn/layer/norm.py:824: UserWarning: When training, we now always track global mean and variance.warnings.warn(

可以发现，批量规范化层对于图像数据的处理与对于一维数据的处理类似，都是对每个通道进行规范化。对这些通道的“每个”输出执行批量规范化，每个通道都有自己的拉伸（scale）和偏移（shift）参数，这两个参数都是标量。假设我们的小批量包含 $m$ 个样本，并且对于每个通道，卷积的输出具有高度 $h$ 和宽度 $w$ 。那么对于卷积层，我们在每个输出通道的 $\times h \times w$ 个元素上同时执行每个批量规范化。因此，在计算平均值和方差时，我们会收集所有空间位置的值，然后在给定通道内应用相同的均值和方差，以便在每个空间位置对值进行规范化。

ResNet

ResNet（Residual Network）是一种深度卷积神经网络，它通过引入残差连接（Residual Connection）来解决深度神经网络中的梯度消失和梯度爆炸问题。ResNet的核心思想是让网络中的每一层都学习残差映射，而不是直接学习输出。残差映射是指输入与网络输出的差值，而不是直接学习输出。通过这种方式，网络可以更容易地学习到复杂的特征表示。

ResNet的残差连接结构如下所示：

在这里插入图片描述

其中， $x$ 表示输入， $f (x) - x$ 表示残差映射， $f (x)$ 表示网络的实际输出。通过这种方式，网络可以更容易地学习到复杂的特征表示。

接下来，我们使用CIFAR-10来训练一个ResNet模型，看看模型效果吧！
CIFAR-10数据集是一个广泛使用的图像数据集，由Hinton的学生Alex Krizhevsky和Ilya Sutskever整理，用于识别普适物体的小型数据集。CIFAR-10数据集是从一个叫做“80 million tiny images dataset”（8000万张小图数据集）中精炼剥离出来的一部分，是该数据集的子集。由于原数据集涉及争议内容，目前已被下架。该数据集主要用于机器学习领域的计算机视觉算法基准测试，特别是在图像分类任务中。

数据集内容

图像数量：CIFAR-10数据集包含60,000张32x32像素的彩色（3通道）图像。
类别分布：分为10个类别，每个类别包含6,000张图像。具体类别包括飞机（airplane）、汽车（automobile）、鸟类（bird）、猫（cat）、鹿（deer）、狗（dog）、蛙类（frog）、马（horse）、船（ship）和卡车（truck）。
数据划分：数据集被划分为50,000张训练图片和10,000张测试图片。训练图片被进一步分为5个批次（batches），每个批次包含10,000张图片。

CIFAR-10数据集包含的是现实世界中真实的物体，与手写字符数据集（如MNIST）相比，CIFAR-10的噪声更大，物体的比例、特征都不尽相同，这为识别带来很大困难。直接的线性模型（如Softmax）在CIFAR-10上表现得很差，需要更复杂的模型来实现较高的分类准确率。CIFAR-10数据集是一个经典的图像分类数据集，广泛用于计算机视觉领域的研究和教育中。尽管其识别问题在深度学习模型的帮助下已经得到了较好的解决，但它仍然是初学者和研究者了解图像分类问题的一个良好起点。

import paddle  
from paddle.vision.transforms import Compose, Resize, ToTensor, Normalize  
from paddle.vision.datasets import Cifar10  
from paddle.io import DataLoader  # 定义数据预处理  
transform = Compose([  Resize((224, 224)),  ToTensor(),  Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  
])  # 加载数据集  
train_dataset = Cifar10(mode='train', transform=transform)  
test_dataset = Cifar10(mode='test', transform=transform)  # 创建数据加载器  
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)  
test_loader = DataLoader(test_dataset, batch_size=64)

item    80/41626 [..............................] - ETA: 43s - 1ms/itemCache file /home/aistudio/.cache/paddle/dataset/cifar/cifar-10-python.tar.gz not found, downloading https://dataset.bj.bcebos.com/cifar/cifar-10-python.tar.gz 
Begin to downloaditem 41626/41626 [============================>.] - ETA: 0s - 2ms/itemDownload finished

让我们将加载好的数据放入迭代器中，并看看训练集的前几张图片和标签。

# 查看训练集的前几张图片和标签
import math
import numpy as np  
import matplotlib.pyplot as plt  num_toshow = 10
for images, labels in train_loader:print(labels[0:num_toshow])  # 打印标签# 创建一个新的figure，尺寸为10x5英寸  plt.figure(figsize=(10, 5))  for i in range(num_toshow):  # 选择第i张图片  img = images[i]  # 将图片数据放缩到[0, 255]  data_min, data_max = paddle.min(img), paddle.max(img)img = (img - data_min) / (data_max - data_min)img = img * 255  # 将张量转换为numpy数组，并确保数据类型是uint8  img = img.numpy().astype(np.uint8)  # 将图片从CHW格式转换为HWC格式  img = img.transpose((1, 2, 0))  # 在subplot中展示图片  cols = round(math.sqrt(num_toshow))plt.subplot(cols, math.ceil(num_toshow / cols), i + 1)  plt.xticks([])  plt.yticks([])  plt.grid(False)  plt.imshow(img)  plt.xlabel(f'Image {i+1}')  # 展示所有subplot  plt.show()break

Tensor(shape=[10], dtype=int64, place=Place(gpu:0), stop_gradient=True,[0, 8, 6, 9, 7, 3, 8, 2, 3, 2])

在这里插入图片描述

接下来，让我们使用一个ResNet结构的网络模型，并使用CIFAR-10数据集进行训练。我们首先看一下PyTorch自带的resnet18模型。我们可以使用pytorch可视化工具netron查看YOLO网络模型结构。
在命令行执行：
C:\Users\admin>netron
Serving at http://localhost:8080
即可在网页端打开netron
将网络模型保存为.pt，或者将现有的.pt文件导入网页即可。如果没有安装netron，需要先pip一下~：pip install netron

from paddle.vision.models import resnet18  
import paddle.nn.functional as F  # 导入预训练的ResNet18模型  
model = resnet18(pretrained=True)  # 设置模型为评估模式  
model.eval()  # 保存模型  
paddle.save(model.state_dict(), 'data/resnet18.pdparams')

100%|██████████| 69183/69183 [00:01<00:00, 57674.41it/s]

在这里插入图片描述

对于ResNet结构，读者不妨参考原论文Deep Residual Learning for Image Recognition中的介绍。如下图所示，对于一个没有残差结构的普通卷积神经网络，当网络层数更多时，网络训练和测试反而会变得更差，这是由于梯度消失和梯度爆炸问题导致的。

在这里插入图片描述

然而当采用残差结构时，网络训练和测试的效果会随层数增加而提升。如下图所示，下图使用了CIFAR-10数据集进行了验证。
在这里插入图片描述

接下来让我们来训练测试一下ResNet18模型。首先我们看一下模型输入输出尺寸是否正确。

out = model(images)
print(out.shape)

[64, 1000]

可以看到，原网络输出类别个数为1000，我们需要对其进行结构修改。

import paddle.nn as nn  class ResNet18_CIFAR_10(nn.Layer):  def __init__(self, output_size=10):  super(ResNet18_CIFAR_10, self).__init__()  # 定义ResNet18模型并加载预训练权重  self.resnet18 = resnet18(pretrained=True)  # 修改全连接层输出类别个数  num_ftrs = self.resnet18.fc.weight.shape[0]  self.resnet18.fc = nn.Linear(num_ftrs, output_size)  def forward(self, x):  # 前向传播  x = self.resnet18(x)  return x

net = ResNet18_CIFAR_10()
out = net(images)
print(out.shape)

[64, 10]

接下来我们进行训练和测试。

from paddle.vision.transforms import Compose, Normalize  
import warnings  
warnings.filterwarnings('ignore')  # 忽略所有警告# 设置设备  
device = paddle.set_device('gpu' if paddle.is_compiled_with_cuda() else 'cpu')  
net = net.to(device)  # 损失函数和优化器  
criterion = paddle.nn.CrossEntropyLoss()  
optimizer = paddle.optimizer.Adam(parameters=net.parameters(), learning_rate=0.001)  num_epochs = 10  
for epoch in range(num_epochs):  for i, (images, labels) in enumerate(train_loader):  images = images.to(device)  labels = labels.to(device)  outputs = net(images)  loss = criterion(outputs, labels)  loss.backward()  optimizer.step()  optimizer.clear_grad()  if (i + 1) % 100 == 0:  print(f'Epoch [{epoch + 1}/{num_epochs}], Step [{i + 1}/{len(train_loader)}], Loss: {loss.numpy():.4f}')

Epoch [10/10], Step [700/782], Loss: 0.0456

接下来我们在测试集上对模型进行测试。

# 测试模型
net.eval() 
total = 0  
correct = 0  
for imgs, labels in test_loader():  outputs = net(imgs)  _, predicted = paddle.topk(outputs, k=1, axis=1)  total += labels.shape[0]  correct += paddle.sum(paddle.equal(predicted.reshape((1,-1)), labels)).numpy()  breakprint('Accuracy: %.2f %%' % (100 * correct / total))

Accuracy: 85.94 %

可以看到模型在测试集上具有较好的准确率。ResNet在工程上主要有以下应用领域：

图像分类：
- ResNet在图像分类任务中表现优异，尤其是在大规模数据集（如ImageNet）上取得了卓越的性能。通过在大规模数据集上进行预训练，ResNet可以学习到强大的特征表示，进而在各种图像分类任务中取得良好的结果。
目标检测：
- 在目标检测任务中，ResNet常作为骨干网络（backbone network），结合相应的检测框架（如Faster R-CNN、YOLO、SSD等）构建高性能的目标检测系统。这些系统能够准确识别图像中的目标物体，并给出其位置和类别信息。
语义分割：
- 语义分割是计算机视觉领域的一个重要任务，旨在将图像中的每个像素划分为相应的类别。ResNet在语义分割任务中也具有广泛应用，通过与全卷积网络（FCN）等结构相结合，实现对图像像素级别的精细分类。

除了计算机视觉领域，ResNet还逐渐渗透到自然语言处理、语音识别等其他领域。例如，在自然语言处理中，ResNet可用于文本分类、情感分析等任务；在语音识别中，ResNet可用于提取音频特征，提高识别率。ResNet作为一种强大的深度学习模型结构，在多个领域取得了显著成果，并展现出广阔的发展前景。未来，随着技术的不断进步和应用场景的不断拓展，ResNet有望在更多领域发挥更大作用，为人类社会的进步贡献更多力量。
，ResNet常作为骨干网络（backbone network），结合相应的检测框架（如Faster R-CNN、YOLO、SSD等）构建高性能的目标检测系统。这些系统能够准确识别图像中的目标物体，并给出其位置和类别信息。