深度学习篇---深度学习中的超参数张量转换模型训练

news/2025/2/8 3:03:35/

文章目录

  • 前言
  • 第一部分:深度学习中的超参数
    • 1. 学习率(Learning Rate)
      • 定义
      • 重要性
      • 常见设置
    • 2. 批处理大小(Batch Size)
      • 定义
      • 重要性
      • 常见设置
    • 3. 迭代次数(Number of Epochs)
      • 定义
      • 重要性
      • 常见设置
    • 4. 优化器(Optimizer)
      • 定义
      • 重要性
      • 常见设置
    • 5. 损失函数(Loss Function)
      • 定义
      • 重要性
      • 常见设置
    • 6. 正则化(Regularization)
      • 定义
      • 重要性
      • 常见设置
    • 7. 网络架构(Network Architecture)
      • 定义
      • 重要性
      • 常见设置
    • PaddlePaddle中的超参数设置示例
    • PyTorch中的超参数设置示例
  • 第二部分:张量转换
    • PaddlePaddle 示例
    • PyTorch 示例
  • 第三部分:模型训练流程
    • PaddlePaddle 模型训练示例
      • 程序解释
        • 1. 导入必要的库
        • 2. 定义卷积神经网络模型
        • 3. 实例化模型
        • 4. 定义损失函数和优化器
        • 5. 训练循环
        • 6. 保存模型
    • PyTorch 模型训练示例
      • 程序解释
        • 1. 导入必要的库
        • 2. 定义卷积神经网络模型
        • 3. 实例化模型
        • 4. 定义损失函数和优化器
        • 5. 训练循环
        • 6. 保存模型
  • 总结


前言

以上就是今天要讲的内容,本文简单介绍了深度学习中的超参数以及PaddlePaddle、pytorch框架下的张量转换模型训练


第一部分:深度学习中的超参数

深度学习中,超参数模型配置的一部分,它们不是通过训练数据学习得到的,而是根据经验或实验预先设定的。以下是一些常见的超参数及其在PaddlePaddle和PyTorch框架中的详细解释:

1. 学习率(Learning Rate)

定义

定义:在优化算法中更新模型权重时的步长大小

重要性

重要性:学习率太大可能导致训练不稳定太小则可能导致训练过程缓慢。

常见设置

常见设置:通常开始时设置一个较大的学习率,然后根据训练进度进行衰减。

2. 批处理大小(Batch Size)

定义

定义:每次训练迭代中使用的样本数量

重要性

重要性:较大的批处理大小可以减少梯度估计的方差,但可能需要更多的内存。较小的批处理大小可能导致训练更不稳定

常见设置

常见设置:32, 64, 128, 256等。

3. 迭代次数(Number of Epochs)

定义

定义:整个数据集被训练模型遍历的次数

重要性

重要性:足够的迭代次数可以确保模型有足够的时间学习,但过多的迭代可能导致过拟合

常见设置

常见设置:根据数据集大小和问题的复杂性来定。

4. 优化器(Optimizer)

定义

定义:用于更新模型权重的算法

重要性

重要性:不同的优化器可能对模型的收敛速度和最终性能有显著影响。

常见设置

常见设置:SGD, Adam, RMSprop等。

5. 损失函数(Loss Function)

定义

定义:用于量化模型预测与真实值之间差异的函数

重要性

重要性:损失函数的选择直接影响模型的训练过程和性能

常见设置

常见设置:均方误差(MSE)用于回归问题交叉熵用于分类问题

6. 正则化(Regularization)

定义

定义:用于防止模型过拟合的技术

重要性

重要性:通过限制模型复杂度来提高泛化能力

常见设置

常见设置:L1正则化、L2正则化、Dropout等。

7. 网络架构(Network Architecture)

定义

定义:构成神经网络的各种层的配置。

重要性

重要性:网络架构直接影响模型的表达能力

常见设置

常见设置:卷积神经网络(CNN)用于图像任务循环神经网络(RNN)用于序列数据

PaddlePaddle中的超参数设置示例

import paddle
from paddle.optimizer import Adam
from paddle.regularizer import L2Decay#定义模型
model = paddle.vision.models.resnet50()#设置学习率
learning_rate = 0.001#设置批处理大小
batch_size = 64#设置优化器
optimizer = Adam(parameters=model.parameters(), learning_rate=learning_rate, weight_decay=L2Decay(1e-4))#设置损失函数
loss_fn = paddle.nn.CrossEntropyLoss()

PyTorch中的超参数设置示例

import torch
import torch.nn as nn
import torch.optim as optim#定义模型
model = torch.hub.load('pytorch/vision:v0.9.0', 'resnet50', pretrained=False)#设置学习率
learning_rate = 0.001#设置批处理大小
batch_size = 64#设置优化器
optimizer = optim.Adam(model.parameters(), lr=learning_rate, weight_decay=1e-4)#设置损失函数
criterion = nn.CrossEntropyLoss()

在实际应用中,超参数的设置通常需要通过多次实验和验证来确定。此外,还可以使用超参数优化技术,如网格搜索、随机搜索、贝叶斯优化等,来寻找最佳的超参数组合。

第二部分:张量转换

PaddlePaddle 示例

在PaddlePaddle中,可以使用paddle.io.Datasetpaddle.io.DataLoader来加载数据并进行批处理。

import paddle
from paddle.io import Dataset, DataLoader
from paddle.vision.transforms import ToTensor#定义一个自定义的数据集类
class CustomDataset(Dataset):def __init__(self, image_paths, transform=None):self.image_paths = image_pathsself.transform = transformdef __len__(self):return len(self.image_paths)def __getitem__(self, idx):# 读取图像路径image_path = self.image_paths[idx]# 使用paddle.io.read_image读取图像,并转换为HWC格式image = paddle.io.read_image(image_path, dtype='float32')# 如果定义了转换,则应用转换if self.transform:image = self.transform(image)return image#图像路径列表
image_paths = ['path/to/image1.jpg', 'path/to/image2.jpg']#定义图像预处理转换
transform = ToTensor()  # 将图像转换为张量#创建数据集实例
dataset = CustomDataset(image_paths=image_paths, transform=transform)#创建DataLoader
data_loader = DataLoader(dataset, batch_size=32, shuffle=True)#使用DataLoader迭代数据
for images in data_loader:# 这里images已经是张量格式,可以直接用于训练# images的形状为[batch_size, channels, height, width]pass

PyTorch 示例

在PyTorch中,可以使用torch.utils.data.Datasettorch.utils.data.DataLoader来加载数据并进行批处理。

import torch
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms
from PIL import Image#定义一个自定义的数据集类
class CustomDataset(Dataset):def __init__(self, image_paths, transform=None):self.image_paths = image_pathsself.transform = transformdef __len__(self):return len(self.image_paths)def __getitem__(self, idx):# 读取图像路径image_path = self.image_paths[idx]# 使用PIL库读取图像image = Image.open(image_path)# 如果定义了转换,则应用转换if self.transform:image = self.transform(image)return image#图像路径列表
image_paths = ['path/to/image1.jpg', 'path/to/image2.jpg']#定义图像预处理转换
transform = transforms.Compose([transforms.ToTensor(),  # 将图像转换为张量
])#创建数据集实例
dataset = CustomDataset(image_paths=image_paths, transform=transform)#创建DataLoader
data_loader = DataLoader(dataset, batch_size=32, shuffle=True)#使用DataLoader迭代数据
for images in data_loader:# 这里images已经是张量格式,可以直接用于训练# images的形状为[batch_size, channels, height, width]pass

详细解释

  1. 自定义数据集类:CustomDataset类继承自Dataset,用于定义如何从图像路径中读取数据
  2. init 方法:初始化方法接收图像路径列表和转换函数
  3. len 方法:返回数据集中图像的数量
  4. getitem 方法:实现如何根据索引idx读取单个图像
  5. PaddlePaddle中,使用paddle.io.read_image来读取图像
  6. PyTorch中,使用PIL.Image.open来读取图像。

图像预处理转换:
7. 在PaddlePaddle中,ToTensor转换用于将图像数据转换PaddlePaddle的张量格式,其形状为**[channels, height, width]
8. 在
PyTorch中,transforms.ToTensor()同样用于将图像数据转换PyTorch的张量格式**,其形状为**[channels, height, width]
9. DataLoader:DataLoader用于
封装数据集**,提供批量加载、打乱数据集、多线程加载等功能。
10. 迭代数据:在训练循环中,通过迭代data_loader来获取批量的图像数据,这些数据已经是张量格式,可以直接用于模型的训练
在上述代码中,我们只进行了最基础的图像到张量的转换。在实际应用中,可能还需要进行其他预处理步骤,如调整图像大小、裁剪、翻转、标准化等。这些步骤可以通过在transforms.Compose中添加相应的转换来实现。

第三部分:模型训练流程

PaddlePaddle 模型训练示例

在PaddlePaddle中,我们首先定义一个简单的卷积神经网络模型,然后进行训练。

import paddle
import paddle.nn as nn
import paddle.optimizer as optim
from paddle.io import DataLoader#定义一个简单的卷积神经网络
class SimpleCNN(nn.Layer):def __init__(self):super(SimpleCNN, self).__init__()self.conv1 = nn.Conv2D(in_channels=3, out_channels=32, kernel_size=3)self.pool1 = nn.MaxPool2D(kernel_size=2, stride=2)self.conv2 = nn.Conv2D(in_channels=32, out_channels=64, kernel_size=3)self.pool2 = nn.MaxPool2D(kernel_size=2, stride=2)self.fc1 = nn.Linear(in_features=64*6*6, out_features=128)self.fc2 = nn.Linear(in_features=128, out_features=10)def forward(self, x):x = self.pool1(self.conv1(x))x = self.pool2(self.conv2(x))x = paddle.flatten(x, 1)  # 展平操作x = self.fc1(x)x = self.fc2(x)return x#实例化模型
model = SimpleCNN()#定义损失函数
loss_fn = nn.CrossEntropyLoss()#定义优化器
optimizer = optim.Adam(parameters=model.parameters(), learning_rate=0.001)#假设我们已经有了一个DataLoader
#data_loader = DataLoader(...)#训练循环
for epoch in range(10):  # 进行10个训练周期for images, labels in data_loader:# 前向传播outputs = model(images)loss = loss_fn(outputs, labels)# 反向传播和优化loss.backward()optimizer.step()optimizer.clear_grad()print(f'Epoch [{epoch+1}/{10}], Loss: {loss.numpy()[0]}')#保存模型
paddle.save(model.state_dict(), 'model.pdparams')

程序解释

1. 导入必要的库
import paddle
import paddle.nn as nn
import paddle.optimizer as optim
from paddle.io import DataLoader

这些是PaddlePaddle框架中用于构建和训练神经网络的必要模块

2. 定义卷积神经网络模型
class SimpleCNN(nn.Layer):def __init__(self):super(SimpleCNN, self).__init__()# 第一层卷积,输入通道3(RGB图像),输出通道32,卷积核大小3x3self.conv1 = nn.Conv2D(in_channels=3, out_channels=32, kernel_size=3)# 第一层池化,池化窗口大小2x2,步长2self.pool1 = nn.MaxPool2D(kernel_size=2, stride=2)# 第二层卷积,输入通道32,输出通道64,卷积核大小3x3self.conv2 = nn.Conv2D(in_channels=32, out_channels=64, kernel_size=3)# 第二层池化,池化窗口大小2x2,步长2self.pool2 = nn.MaxPool2D(kernel_size=2, stride=2)# 全连接层,输入特征64*6*6(取决于输入图像大小和前面的层),输出特征128self.fc1 = nn.Linear(in_features=64*6*6, out_features=128)# 输出层,输入特征128,输出特征10(假设有10个类别)self.fc2 = nn.Linear(in_features=128, out_features=10)def forward(self, x):# 前向传播过程x = self.pool1(self.conv1(x))  # 第一层卷积和池化x = self.pool2(self.conv2(x))  # 第二层卷积和池化x = paddle.flatten(x, 1)        # 展平操作,将多维数据转换为一维x = self.fc1(x)                 # 第一层全连接x = self.fc2(x)                 # 输出层return x

在这个类中,我们定义了一个简单的CNN结构,包括两个卷积层、两个池化层和两个全连接层。

3. 实例化模型
model = SimpleCNN()

创建了一个SimpleCNN类的实例,即我们的模型。

4. 定义损失函数和优化器
loss_fn = nn.CrossEntropyLoss()
optimizer = optim.Adam(parameters=model.parameters(), learning_rate=0.001)

损失函数使用了交叉熵损失,适用于多分类问题。优化器选择了Adam,并设置了学习率为0.001。

5. 训练循环
for epoch in range(10):  # 进行10个训练周期for images, labels in data_loader:# 前向传播outputs = model(images)loss = loss_fn(outputs, labels)# 反向传播和优化loss.backward()optimizer.step()optimizer.clear_grad()print(f'Epoch [{epoch+1}/{10}], Loss: {loss.numpy()[0]}')

这里是一个标准的训练循环,包括前向传播、计算损失、反向传播和参数更新。每个epoch结束后,打印出当前的损失值。

6. 保存模型
paddle.save(model.state_dict(), 'model.pdparams')

训练完成后,保存模型的参数,以便后续可以加载模型进行推理或继续训练。

请注意,这段代码中的data_loader是假设已经定义好的,它应该是一个DataLoader实例,用于加载数据集并提供批处理功能。实际使用时,需要根据具体的数据集来创建DataLoader。

整体来说,这段代码展示了如何使用PaddlePaddle构建、训练和保存一个简单的CNN模型。

PyTorch 模型训练示例

在PyTorch中,我们同样定义一个简单的卷积神经网络模型,并进行训练。

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader#定义一个简单的卷积神经网络
class SimpleCNN(nn.Module):def __init__(self):super(SimpleCNN, self).__init__()self.conv1 = nn.Conv2d(in_channels=3, out_channels=32, kernel_size=3)self.pool = nn.MaxPool2d(kernel_size=2, stride=2)self.conv2 = nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3)self.fc1 = nn.Linear(in_features=64*6*6, out_features=128)self.fc2 = nn.Linear(in_features=128, out_features=10)def forward(self, x):x = self.pool(F.relu(self.conv1(x)))x = self.pool(F.relu(self.conv2(x)))x = x.view(-1, 64*6*6)  # 展平操作x = F.relu(self.fc1(x))x = self.fc2(x)return x#实例化模型
model = SimpleCNN()#定义损失函数
loss_fn = nn.CrossEntropyLoss()#定义优化器
optimizer = optim.Adam(model.parameters(), lr=0.001)#假设我们已经有了一个DataLoader
#data_loader = DataLoader(...)#训练循环
for epoch in range(10):  # 进行10个训练周期for images, labels in data_loader:# 前向传播outputs = model(images)loss = loss_fn(outputs, labels)# 反向传播和优化optimizer.zero_grad()loss.backward()optimizer.step()print(f'Epoch [{epoch+1}/{10}], Loss: {loss.item()}')#保存模型
torch.save(model.state_dict(), 'model.pth')

程序解释

1. 导入必要的库
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader

这些是PyTorch框架中用于构建和训练神经网络的必要模块

2. 定义卷积神经网络模型
class SimpleCNN(nn.Module):def __init__(self):super(SimpleCNN, self).__init__()# 第一层卷积,输入通道3(RGB图像),输出通道32,卷积核大小3x3self.conv1 = nn.Conv2d(in_channels=3, out_channels=32, kernel_size=3)# 池化层,池化窗口大小2x2,步长2self.pool = nn.MaxPool2d(kernel_size=2, stride=2)# 第二层卷积,输入通道32,输出通道64,卷积核大小3x3self.conv2 = nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3)# 全连接层,输入特征64*6*6(取决于输入图像大小和前面的层),输出特征128self.fc1 = nn.Linear(in_features=64*6*6, out_features=128)# 输出层,输入特征128,输出特征10(假设有10个类别)self.fc2 = nn.Linear(in_features=128, out_features=10)def forward(self, x):# 前向传播过程x = self.pool(F.relu(self.conv1(x)))  # 第一层卷积、ReLU激活和池化x = self.pool(F.relu(self.conv2(x)))  # 第二层卷积、ReLU激活和池化x = x.view(-1, 64*6*6)                 # 展平操作,将多维数据转换为一维x = F.relu(self.fc1(x))                # 第一层全连接和ReLU激活x = self.fc2(x)                        # 输出层return x

在这个类中,我们定义了一个简单的CNN结构,包括两个卷积层、一个池化层(两个卷积层共享同一个池化层)、两个全连接层,并在卷积层和全连接层之后使用了ReLU激活函数

3. 实例化模型
model = SimpleCNN()

创建了一个SimpleCNN类的实例,即我们的模型。

4. 定义损失函数和优化器
loss_fn = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

损失函数使用了交叉熵损失,适用于多分类问题。优化器选择了Adam,并设置了学习率为0.001

5. 训练循环
for epoch in range(10):  # 进行10个训练周期for images, labels in data_loader:# 前向传播outputs = model(images)loss = loss_fn(outputs, labels)# 反向传播和优化optimizer.zero_grad()  # 清空过往梯度loss.backward()        # 反向传播,计算当前梯度optimizer.step()       # 根据梯度更新网络参数print(f'Epoch [{epoch+1}/{10}], Loss: {loss.item()}')

这里是一个标准的训练循环,包括**前向传播、计算损失、反向传播和参数更新。**每个epoch结束后,打印出当前的损失值。

6. 保存模型
torch.save(model.state_dict(), 'model.pth')

训练完成后,保存模型的参数,以便后续可以加载模型进行推理或继续训练。

请注意,这段代码中的data_loader是假设已经定义好的,它应该是一个DataLoader实例,用于加载数据集并提供批处理功能。实际使用时,需要根据具体的数据集来创建DataLoader。另外,代码中使用了F.relu,但没有导入F模块,应该添加import torch.nn.functional as F

整体来说,这段代码展示了如何使用PyTorch构建、训练和保存一个简单的CNN模型。


总结

以上就是今天要讲的内容,本文仅仅简单介绍了深度学习中的超参数以及PaddlePaddle、pytorch框架下的张量转换模型训练


http://www.ppmy.cn/news/1570220.html

相关文章

FreeRTOS学习 --- 列表和列表项

列表和列表项的简介 列表是 FreeRTOS 中的一个数据结构,概念上和链表有点类似,列表被用来跟踪 FreeRTOS中的任务。 列表项就是存放在列表中的项目 列表相当于链表,列表项相当于节点,FreeRTOS 中的列表是一个双向环形链表。 列表…

CEF132 编译指南 Windows 篇 - 安装 Git 和 Python (三)

1. 引言 在之前的文章里,我们成功地安装并配置了 Visual Studio 2022,为编译 CEF 132 做好了基础准备。接下来,我们需要安装 Git 和 Python 这两个至关重要的工具。它们在 CEF 132 的编译过程中扮演着不可或缺的角色:Git 用于获取…

【产品小白】什么是微服务

在数字化浪潮汹涌澎湃的当下,软件系统的规模持续扩张,复杂度呈指数级攀升。如何高效地开发软件,确保其后续的维护轻松便捷,同时具备强大的扩展能力,已然成为广大开发者待攻克的核心难题。微服务作为一种应运而生的前沿…

数据结构(Java)—— 优先级队列(堆)

1. 概念 优先级队列是一种抽象数据类型(ADT),它允许队列中维护的元素按优先级排序,优先级最高的元素会优先被处理。 2. 使用 2.1 优先级队列的构造 构造器 功能介绍 PriorityQueue() 创建一个空的优先级队列,默认容量…

基于单片机的智能安全插座(论文+源码)

1 系统整体方案设计 本课题基于单片机的智能安全插座设计,以STM32嵌入式单片机为主体,将计算机技术和检测技术有机结合,设计一款电量参数采集装置,实现电压、电流信号的数据采集任务,电压、电流和功率在上位机的显示任…

中国通信企业协会 通信网络安全服务能力评定 风险评估二级要求准则

通信网络安全服务能力评定要求是对通信网络安全服务单位的资格状况、经济实力、技术能力、服务队伍、服务过程能力等方面的具体衡量和评价。中国通信企业协会通信网络安全服务能力评定风险评估二级应达到风险评估服务一级能力要求的所有条款,并在以下方面增强或增加…

MATLAB实现多种群遗传算法

多种群遗传算法(MPGA, Multi-Population Genetic Algorithm)是一种改进的遗传算法,它通过将种群分成多个子种群并在不同的子种群之间进行交叉和交换,旨在提高全局搜索能力并避免早期收敛。下面是多种群遗传算法的主要步骤和流程&a…

Android性能调优之需要掌握Dalvik和ART的知识

在Android4.4时ART诞生,DVM和ART在4.4的版本中可以互替,在Android5.0后Android默认运行虚拟机为ART,至此,DVM退出历史舞台。 步入2020年,全球Android用户中,5.0以上的版本占据87~90%,就算DVM已…