完整的模型训练路线

1.完整的模型训练套路：

完成CIFAR10的分类问题

1.1准备数据集:

其实用len去查看数据集的长度已经不是新知识点了。当我们要重写Dataset类的时候，关键需要重写Dataset类的__len__()方法和__getitem__()方法。

train_data = torchvision.datasets.CIFAR10(root="./data", train=True, transform=torchvision.transforms.ToTensor(),download=True)
test_data = torchvision.datasets.CIFAR10(root="./data", train=False, transform=torchvision.transforms.ToTensor(),download=True)
train_data_size = len(train_data)
test_data_size = len(test_data)
print("训练集的长度为：{}".format(train_data_size))
print("测试的长度为：{}".format(test_data_size))

1.2利用DataLoader来加载数据集：

# 利用 DataLoader 来加载数据集
train_dataloader = DataLoader(train_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)

1.3搭建神经网络：

将搭建的网络模型放入单独的一个model.py文件中，并进行验证。

import torch
from torch import nn# 搭建神经网络
class Tudui(nn.Module):def __init__(self):super(Tudui, self).__init__()self.model = nn.Sequential(nn.Conv2d(3, 32, 5, 1, padding=2),nn.MaxPool2d(2),nn.Conv2d(32, 32, 5, 1, padding=2),nn.MaxPool2d(2),nn.Conv2d(32, 64, 5, 1, padding=2),nn.MaxPool2d(2),nn.Flatten(),nn.Linear(64*4*4, 64),nn.Linear(64, 10))def forward(self, x):x = self.model(x)return xif __name__ == '__main__':tudui = Tudui()input=torch.ones((64,3,32,32))output=tudui(input)print(output.shape)

1.4创建网络模型：

按住Ctril然后点击类名可以查看源代码。

from model import *#创建网络模型
tudui = Tudui()

1.5创建损失函数：

#创建损失函数
loss_fn=nn.CrossEntropyLoss()

1.6设置优化器：

推荐使用科学计数法表示学习率。

#定义优化器
learning_rate=1e-2
#learning_rate=0.01
optimizer=torch.optim.SGD(tudui.parameters(),lr=learning_rate)

1.7设置训练网络的一些参数：

#设置训练网络的一些参数
#记录训练的次数
total_train_step=0
#记录测试的次数
total_test_step=0
#训练的轮数
epoch=10

for i in range(epoch):print("--------第{}轮训练开始----------".format(i+1))#训练步骤开始for data in train_dataloader:imgs, targets = dataoutputs = tudui(imgs)loss = loss_fn(outputs, targets)#优化器调优optimizer.zero_grad()loss.backward()optimizer.step()total_train_step=total_train_step+1print("训练次数：{}，loss：{}".format(total_train_step,loss.item()))

在这里插入图片描述

2.完整的模型测试：

2.1设置测试部分：

用with torch.no_grad():环境取消梯度。

for i in range(epoch):print("--------第{}轮训练开始----------".format(i+1))#训练步骤开始for data in train_dataloader:imgs, targets = dataoutputs = tudui(imgs)loss = loss_fn(outputs, targets)#优化器调优optimizer.zero_grad()loss.backward()optimizer.step()total_train_step=total_train_step+1if total_train_step%100==0:print("训练次数：{}，loss：{}".format(total_train_step,loss.item()))#测试步骤开始total_test_loss=0with torch.no_grad():for data in test_dataloader:imgs, targets = dataoutputs = tudui(imgs)loss = loss_fn(outputs, targets)total_test_loss=total_test_loss+lossprint("整体测试集上的Loss:{}".format(total_test_loss))

在这里插入图片描述

2.2用tensorboard显示loss的图像：

添加参数

#添加 tensorboard
writer=SummaryWriter("./logs_train")

在训练步骤中添加：

total_train_step=total_train_step+1if total_train_step%100==0:print("训练次数：{}，loss：{}".format(total_train_step,loss.item()))writer.add_scalar("train_loss",loss.item(),total_train_step)

在测试步骤后添加：

writer.add_scalar("test_loss",total_test_loss,total_test_step)total_test_step=total_test_step+1

在for i in range(epoch)循环外添加：

writer.close()

在这里插入图片描述

2.3保存训练参数：

在for i in range(epoch)外添加：

torch.save(tudui,"tudui_{}.pth".format(i))print("模型已保存")

2.4利用torch.argmax函数计算准确率：

torch.argmax(predictions, dim=0)
- dim=0：沿着行方向（样本方向）获取最大值的索引。
- dim=1：沿着列方向（特征方向）获取最大值的索引。

total_accuracy=0

print("整体测试集上的正确率：{}".format(total_accuracy/test_data_size))writer.add_scalar("test_accuracy",total_accuracy/test_data_size,total_test_step)

在这里插入图片描述

3.训练细节总结：

model.train() 和 model.eval ()
- 在官网的torch.nn.Module小节中可以查看train 和eval
- model.train() 将模块设置为训练模式。这只对某些模块有影响，例如Dxopout、BatchNorm等。
- model.eval ()将模块设置为验证模式。这只对某些模块有影响。这等效于self.Train(False)。
- 最好还是加上。

在训练开始前加上.train()，在测试开始前加上.eval()。

4.完整代码

train.py

import tensorboard
import torch
import torchvision
from torch.utils.tensorboard import SummaryWriterfrom model import *
from torch import nn
from torch.utils.data import DataLoader# 准备数据集
train_data = torchvision.datasets.CIFAR10(root="./data", train=True, transform=torchvision.transforms.ToTensor(),download=True)
test_data = torchvision.datasets.CIFAR10(root="./data", train=False, transform=torchvision.transforms.ToTensor(),download=True)
train_data_size = len(train_data)
test_data_size = len(test_data)
print("训练集的长度为：{}".format(train_data_size))
print("测试的长度为：{}".format(test_data_size))# 利用 DataLoader 来加载数据集
train_dataloader = DataLoader(train_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)#创建网络模型
tudui = Tudui()#创建损失函数
loss_fn=nn.CrossEntropyLoss()#定义优化器
learning_rate=0.01
optimizer=torch.optim.SGD(tudui.parameters(),lr=learning_rate)#设置训练网络的一些参数
#记录训练的次数
total_train_step=0
#记录测试的次数
total_test_step=0
#训练的轮数
epoch=10#添加 tensorboard
writer=SummaryWriter("./logs_train")for i in range(epoch):print("--------第{}轮训练开始----------".format(i+1))#训练步骤开始tudui.train()for data in train_dataloader:imgs, targets = dataoutputs = tudui(imgs)loss = loss_fn(outputs, targets)#优化器调优optimizer.zero_grad()loss.backward()optimizer.step()total_train_step=total_train_step+1if total_train_step%100==0:print("训练次数：{}，loss：{}".format(total_train_step,loss.item()))writer.add_scalar("train_loss",loss.item(),total_train_step)#测试步骤开始tudui.eval()total_test_loss=0total_accuracy=0with torch.no_grad():for data in test_dataloader:imgs, targets = dataoutputs = tudui(imgs)loss = loss_fn(outputs, targets)total_test_loss=total_test_loss+loss.item()accuracy=(outputs.argmax(1)==targets).sum()total_accuracy=total_accuracy+accuracyprint("整体测试集上的Loss:{}".format(total_test_loss))print("整体测试集上的正确率：{}".format(total_accuracy/test_data_size))writer.add_scalar("test_loss",total_test_loss,total_test_step)writer.add_scalar("test_accuracy",total_accuracy/test_data_size,total_test_step)total_test_step=total_test_step+1torch.save(tudui,"tudui_{}.pth".format(i))# torch.save(tudui.state_dict(),"tudui_{}.pth".format(i))print("模型已保存")writer.close()

model.py

import torch
from torch import nn# 搭建神经网络
class Tudui(nn.Module):def __init__(self):super(Tudui, self).__init__()self.model = nn.Sequential(nn.Conv2d(3, 32, 5, 1, padding=2),nn.MaxPool2d(2),nn.Conv2d(32, 32, 5, 1, padding=2),nn.MaxPool2d(2),nn.Conv2d(32, 64, 5, 1, padding=2),nn.MaxPool2d(2),nn.Flatten(),nn.Linear(64*4*4, 64),nn.Linear(64, 10))def forward(self, x):x = self.model(x)return xif __name__ == '__main__':tudui = Tudui()input=torch.ones((64,3,32,32))output=tudui(input)print(output.shape)