1.完整的模型训练套路:
完成CIFAR10的分类问题
1.1准备数据集:
其实用len去查看数据集的长度已经不是新知识点了。当我们要重写Dataset类的时候,关键需要重写Dataset类的__len__()方法和__getitem__()方法。
train_data = torchvision.datasets.CIFAR10(root="./data", train=True, transform=torchvision.transforms.ToTensor(),download=True)
test_data = torchvision.datasets.CIFAR10(root="./data", train=False, transform=torchvision.transforms.ToTensor(),download=True)
train_data_size = len(train_data)
test_data_size = len(test_data)
print("训练集的长度为:{}".format(train_data_size))
print("测试的长度为:{}".format(test_data_size))
1.2利用DataLoader来加载数据集:
# 利用 DataLoader 来加载数据集
train_dataloader = DataLoader(train_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)
1.3搭建神经网络:
将搭建的网络模型放入单独的一个model.py文件中,并进行验证。
import torch
from torch import nn# 搭建神经网络
class Tudui(nn.Module):def __init__(self):super(Tudui, self).__init__()self.model = nn.Sequential(nn.Conv2d(3, 32, 5, 1, padding=2),nn.MaxPool2d(2),nn.Conv2d(32, 32, 5, 1, padding=2),nn.MaxPool2d(2),nn.Conv2d(32, 64, 5, 1, padding=2),nn.MaxPool2d(2),nn.Flatten(),nn.Linear(64*4*4, 64),nn.Linear(64, 10))def forward(self, x):x = self.model(x)return xif __name__ == '__main__':tudui = Tudui()input=torch.ones((64,3,32,32))output=tudui(input)print(output.shape)
1.4创建网络模型:
按住Ctril然后点击类名可以查看源代码。
from model import *#创建网络模型
tudui = Tudui()
1.5创建损失函数:
#创建损失函数
loss_fn=nn.CrossEntropyLoss()
1.6设置优化器:
推荐使用科学计数法表示学习率。
#定义优化器
learning_rate=1e-2
#learning_rate=0.01
optimizer=torch.optim.SGD(tudui.parameters(),lr=learning_rate)
1.7设置训练网络的一些参数:
#设置训练网络的一些参数
#记录训练的次数
total_train_step=0
#记录测试的次数
total_test_step=0
#训练的轮数
epoch=10
for i in range(epoch):print("--------第{}轮训练开始----------".format(i+1))#训练步骤开始for data in train_dataloader:imgs, targets = dataoutputs = tudui(imgs)loss = loss_fn(outputs, targets)#优化器调优optimizer.zero_grad()loss.backward()optimizer.step()total_train_step=total_train_step+1print("训练次数:{},loss:{}".format(total_train_step,loss.item()))
2.完整的模型测试:
2.1设置测试部分:
用with torch.no_grad():环境取消梯度。
for i in range(epoch):print("--------第{}轮训练开始----------".format(i+1))#训练步骤开始for data in train_dataloader:imgs, targets = dataoutputs = tudui(imgs)loss = loss_fn(outputs, targets)#优化器调优optimizer.zero_grad()loss.backward()optimizer.step()total_train_step=total_train_step+1if total_train_step%100==0:print("训练次数:{},loss:{}".format(total_train_step,loss.item()))#测试步骤开始total_test_loss=0with torch.no_grad():for data in test_dataloader:imgs, targets = dataoutputs = tudui(imgs)loss = loss_fn(outputs, targets)total_test_loss=total_test_loss+lossprint("整体测试集上的Loss:{}".format(total_test_loss))
2.2用tensorboard显示loss的图像:
添加参数
#添加 tensorboard
writer=SummaryWriter("./logs_train")
在训练步骤中添加:
total_train_step=total_train_step+1if total_train_step%100==0:print("训练次数:{},loss:{}".format(total_train_step,loss.item()))writer.add_scalar("train_loss",loss.item(),total_train_step)
在测试步骤后添加:
writer.add_scalar("test_loss",total_test_loss,total_test_step)total_test_step=total_test_step+1
在for i in range(epoch)循环外添加:
writer.close()
2.3保存训练参数:
在for i in range(epoch)外添加:
torch.save(tudui,"tudui_{}.pth".format(i))print("模型已保存")
2.4利用torch.argmax函数计算准确率:
- torch.argmax(predictions, dim=0)
- dim=0:沿着行方向(样本方向)获取最大值的索引。
- dim=1:沿着列方向(特征方向)获取最大值的索引。
total_accuracy=0
print("整体测试集上的正确率:{}".format(total_accuracy/test_data_size))writer.add_scalar("test_accuracy",total_accuracy/test_data_size,total_test_step)
3.训练细节总结:
- model.train() 和 model.eval ()
- 在官网的torch.nn.Module小节中可以查看train 和eval
- model.train() 将模块设置为训练模式。这只对某些模块有影响,例如Dxopout、BatchNorm等。
- model.eval ()将模块设置为验证模式。这只对某些模块有影响。这等效于self.Train(False)。
- 最好还是加上。
在训练开始前加上.train(),在测试开始前加上.eval()。
4.完整代码
train.py
import tensorboard
import torch
import torchvision
from torch.utils.tensorboard import SummaryWriterfrom model import *
from torch import nn
from torch.utils.data import DataLoader# 准备数据集
train_data = torchvision.datasets.CIFAR10(root="./data", train=True, transform=torchvision.transforms.ToTensor(),download=True)
test_data = torchvision.datasets.CIFAR10(root="./data", train=False, transform=torchvision.transforms.ToTensor(),download=True)
train_data_size = len(train_data)
test_data_size = len(test_data)
print("训练集的长度为:{}".format(train_data_size))
print("测试的长度为:{}".format(test_data_size))# 利用 DataLoader 来加载数据集
train_dataloader = DataLoader(train_data, batch_size=64)
test_dataloader = DataLoader(test_data, batch_size=64)#创建网络模型
tudui = Tudui()#创建损失函数
loss_fn=nn.CrossEntropyLoss()#定义优化器
learning_rate=0.01
optimizer=torch.optim.SGD(tudui.parameters(),lr=learning_rate)#设置训练网络的一些参数
#记录训练的次数
total_train_step=0
#记录测试的次数
total_test_step=0
#训练的轮数
epoch=10#添加 tensorboard
writer=SummaryWriter("./logs_train")for i in range(epoch):print("--------第{}轮训练开始----------".format(i+1))#训练步骤开始tudui.train()for data in train_dataloader:imgs, targets = dataoutputs = tudui(imgs)loss = loss_fn(outputs, targets)#优化器调优optimizer.zero_grad()loss.backward()optimizer.step()total_train_step=total_train_step+1if total_train_step%100==0:print("训练次数:{},loss:{}".format(total_train_step,loss.item()))writer.add_scalar("train_loss",loss.item(),total_train_step)#测试步骤开始tudui.eval()total_test_loss=0total_accuracy=0with torch.no_grad():for data in test_dataloader:imgs, targets = dataoutputs = tudui(imgs)loss = loss_fn(outputs, targets)total_test_loss=total_test_loss+loss.item()accuracy=(outputs.argmax(1)==targets).sum()total_accuracy=total_accuracy+accuracyprint("整体测试集上的Loss:{}".format(total_test_loss))print("整体测试集上的正确率:{}".format(total_accuracy/test_data_size))writer.add_scalar("test_loss",total_test_loss,total_test_step)writer.add_scalar("test_accuracy",total_accuracy/test_data_size,total_test_step)total_test_step=total_test_step+1torch.save(tudui,"tudui_{}.pth".format(i))# torch.save(tudui.state_dict(),"tudui_{}.pth".format(i))print("模型已保存")writer.close()
model.py
import torch
from torch import nn# 搭建神经网络
class Tudui(nn.Module):def __init__(self):super(Tudui, self).__init__()self.model = nn.Sequential(nn.Conv2d(3, 32, 5, 1, padding=2),nn.MaxPool2d(2),nn.Conv2d(32, 32, 5, 1, padding=2),nn.MaxPool2d(2),nn.Conv2d(32, 64, 5, 1, padding=2),nn.MaxPool2d(2),nn.Flatten(),nn.Linear(64*4*4, 64),nn.Linear(64, 10))def forward(self, x):x = self.model(x)return xif __name__ == '__main__':tudui = Tudui()input=torch.ones((64,3,32,32))output=tudui(input)print(output.shape)