深度学习(4):torch.nn.Module

news/2024/9/29 7:59:34/

文章目录

  • 一、是什么
  • 二、`nn.Module` 的核心功能
  • 三、`nn.Module` 的基本用法
    • 1. 定义自定义模型
    • 2. 初始化模型
      • 3. 模型的使用
  • 四、`nn.Module` 的关键特性
    • 1. 自动注册子模块和参数
    • 2. `forward` 方法
    • 3. 不需要定义反向传播
  • 五、常用的内置模块
  • 六、示例:创建一个简单的神经网络
    • 1. 问题描述
    • 2. 模型定义
    • 3. 训练过程
  • 七、深入理解 `nn.Module` 的一些重要概念
    • 1. 参数访问
    • 2. 模块访问
    • 3. 保存和加载模型
    • 4. 自定义层和模块
  • 八、`nn.Module` 的实践技巧
    • 1. 使用 `Sequential` 快速构建模型
    • 2. 模型的嵌套
  • 九、总结
    • 十、参考示例:完整的训练脚本

一、是什么

torch.nn.Module 是 PyTorch 中所有神经网络模块的基类,是构建神经网络模型的核心组件。

二、nn.Module 的核心功能

  1. 参数管理:自动管理模型的可训练参数(parameters),方便参数的访问和更新。

  2. 子模块管理:支持将模型分解为多个子模块,便于组织复杂的网络结构。

  3. 前向计算(forward):定义模型的前向传播逻辑。


三、nn.Module 的基本用法

1. 定义自定义模型

要创建自定义的神经网络模型,需要继承 nn.Module,并实现以下内容:

  • 构造函数 __init__:在这里定义网络的层和子模块。
  • 前向方法 forward:定义数据如何经过网络进行前向传播。
import torch
import torch.nn as nnclass MyModel(nn.Module):def __init__(self):super(MyModel, self).__init__()# 定义网络层self.layer1 = nn.Linear(10, 20)self.relu = nn.ReLU()self.layer2 = nn.Linear(20, 1)def forward(self, x):# 定义前向传播过程out = self.layer1(x)out = self.relu(out)out = self.layer2(out)return out

2. 初始化模型

model = MyModel()

3. 模型的使用

  • 前向传播

    output = model(input_data)
    
  • 获取模型参数

    for name, param in model.named_parameters():print(name, param.size())
    

四、nn.Module 的关键特性

1. 自动注册子模块和参数

__init__ 方法中,当你将 nn.Module 的实例(如 nn.Linearnn.Conv2d 等)赋值给模型的属性时,nn.Module 会自动将这些子模块注册到模型中。这意味着:

  • 参数管理:模型的所有参数都会被自动收集,存储在 model.parameters() 中。
  • 子模块管理:可以通过 model.children()model.modules() 访问子模块。
class MyModule(nn.Module):def __init__(self):super(MyModule, self).__init__()self.fc = nn.Linear(10, 5)self.conv = nn.Conv2d(3, 16, kernel_size=3)model = MyModule()
print(list(model.parameters()))  # 自动包含了 fc 和 conv 的参数

2. forward 方法

forward 方法定义了模型的前向传播逻辑。在调用模型实例时,会自动调用 forward 方法。

output = model(input_data)  # 等价于 output = model.forward(input_data)

3. 不需要定义反向传播

在大多数情况下,不需要手动实现反向传播函数。PyTorch 的自动求导机制(autograd)会根据前向传播中的操作,自动计算梯度。

五、常用的内置模块

PyTorch 提供了大量的内置模块,继承自 nn.Module,可以直接使用:

  • 线性层nn.Linear
  • 卷积层nn.Conv1dnn.Conv2dnn.Conv3d
  • 循环神经网络nn.RNNnn.LSTMnn.GRU
  • 归一化层nn.BatchNorm1dnn.BatchNorm2d
  • 激活函数nn.ReLUnn.Sigmoidnn.Softmax
  • 损失函数nn.MSELossnn.CrossEntropyLoss

六、示例:创建一个简单的神经网络

1. 问题描述

创建一个多层感知机(MLP),用于对 MNIST 手写数字进行分类。

2. 模型定义

class MNISTClassifier(nn.Module):def __init__(self):super(MNISTClassifier, self).__init__()self.flatten = nn.Flatten()  # 将输入展开为一维self.fc1 = nn.Linear(28 * 28, 128)self.relu = nn.ReLU()self.fc2 = nn.Linear(128, 64)self.relu2 = nn.ReLU()self.fc3 = nn.Linear(64, 10)  # 输出10个类别的分数def forward(self, x):x = self.flatten(x)x = self.relu(self.fc1(x))x = self.relu2(self.fc2(x))x = self.fc3(x)return x

3. 训练过程

import torch.optim as optim# 初始化模型、损失函数和优化器
model = MNISTClassifier()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)# 假设有数据加载器 data_loader
for epoch in range(num_epochs):for images, labels in data_loader:# 前向传播outputs = model(images)loss = criterion(outputs, labels)# 反向传播和优化optimizer.zero_grad()loss.backward()optimizer.step()print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

七、深入理解 nn.Module 的一些重要概念

1. 参数访问

  • parameters():返回一个生成器,包含模型所有可训练的参数。
  • named_parameters():返回一个生成器,生成 (name, parameter) 对,方便查看参数名称和形状。
for name, param in model.named_parameters():print(f'Parameter {name}: shape {param.shape}')

2. 模块访问

  • children():返回直接子模块的迭代器。
  • modules():返回自身及所有子模块的迭代器。
for child in model.children():print(child)for module in model.modules():print(module)

3. 保存和加载模型

  • 保存模型状态

    torch.save(model.state_dict(), 'model.pth')
    
  • 加载模型状态

    model = MNISTClassifier()
    model.load_state_dict(torch.load('model.pth'))
    

4. 自定义层和模块

通过继承 nn.Module,可以创建自定义的层或模块。

class CustomLayer(nn.Module):def __init__(self, in_features, out_features):super(CustomLayer, self).__init__()self.weight = nn.Parameter(torch.randn(in_features, out_features))self.bias = nn.Parameter(torch.zeros(out_features))def forward(self, x):return torch.matmul(x, self.weight) + self.bias

八、nn.Module 的实践技巧

1. 使用 Sequential 快速构建模型

对于简单的模型,可以使用 nn.Sequential 将多个层按顺序组合。

model = nn.Sequential(nn.Flatten(),nn.Linear(28 * 28, 128),nn.ReLU(),nn.Linear(128, 64),nn.ReLU(),nn.Linear(64, 10)
)

2. 模型的嵌套

可以将模块嵌套使用,构建复杂的网络结构。

class ComplexModel(nn.Module):def __init__(self):super(ComplexModel, self).__init__()self.block1 = nn.Sequential(nn.Conv2d(1, 32, kernel_size=3),nn.ReLU())self.block2 = nn.Sequential(nn.Conv2d(32, 64, kernel_size=3),nn.ReLU())self.fc = nn.Linear(64 * 24 * 24, 10)def forward(self, x):x = self.block1(x)x = self.block2(x)x = x.view(x.size(0), -1)  # 展平x = self.fc(x)return x

九、总结

  • nn.Module 是 PyTorch 构建神经网络的基础,提供了参数管理、子模块管理和前向传播等功能。
  • 通过继承 nn.Module,可以方便地创建自定义模型或层,满足各种复杂的需求。
  • 在使用 nn.Module 时,注意正确地定义 __init__forward 方法,并确保在 forward 方法中定义前向计算逻辑。
  • PyTorch 提供了大量的内置模块,可以直接使用或作为自定义模块的基石。
  • 善于利用 nn.Module 的特性和工具,可以大大提高模型开发的效率和代码的可读性。

十、参考示例:完整的训练脚本

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms# 定义超参数
batch_size = 64
learning_rate = 0.01
num_epochs = 5# 数据集和数据加载器
train_dataset = datasets.MNIST(root='./data', train=True, transform=transforms.ToTensor(), download=True)
train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True)# 定义模型
class MNISTClassifier(nn.Module):def __init__(self):super(MNISTClassifier, self).__init__()self.flatten = nn.Flatten()self.fc1 = nn.Linear(28 * 28, 128)self.relu = nn.ReLU()self.fc2 = nn.Linear(128, 64)self.relu2 = nn.ReLU()self.fc3 = nn.Linear(64, 10)def forward(self, x):x = self.flatten(x)x = self.relu(self.fc1(x))x = self.relu2(self.fc2(x))x = self.fc3(x)return x# 初始化模型、损失函数和优化器
model = MNISTClassifier()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=learning_rate)# 训练模型
for epoch in range(num_epochs):for images, labels in train_loader:# 前向传播outputs = model(images)loss = criterion(outputs, labels)# 反向传播和优化optimizer.zero_grad()loss.backward()optimizer.step()print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')# 保存模型
torch.save(model.state_dict(), 'mnist_classifier.pth')

http://www.ppmy.cn/news/1531832.html

相关文章

基于微信开发助手企鹅音乐微信小程序的设计与实现(源码+文档+讲解)

博主介绍: ✌我是阿龙,一名专注于Java技术领域的程序员,全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师,我在计算机毕业设计开发方面积累了丰富的经验。同时,我也是掘金、华为云、阿里云、InfoQ等平台…

docker - 镜像操作(拉取、查看、删除)

文章目录 1、docker search --help(用于显示 Docker 搜索命令的帮助信息)2、docker pull(拉取镜像)3、docker images (查看镜像)3.1、docker images --help(用于显示 Docker 镜像管理相关命令的帮助信息)3.…

前端面试经验总结2(经典问题篇)

谈谈你对前端的理解 前端主要负责产品页面部分的实现,是最贴近于用户的程序员。 基本工作要求: 1.参与项目,通过与团队成员,UI设计,产品经理的沟通,快速高质量的实现效果图,并能够精确到1px 2.做…

在Docker中运行Tomcat:打造高效可移植的Java Web服务器

随着Docker的兴起,容器化技术已经成为现代软件开发和部署不可或缺的一部分。Tomcat作为Java EE的官方Servlet容器,广泛用于部署Java Web应用程序。将Tomcat与Docker结合使用,可以极大地提升应用的部署效率、可移植性和可扩展性。本文将引导您…

python爬虫初体验(三)——将网页数据导出csv和excel文件

1. 安装库 pip install requests pip install pandas pip install BeautifulSouprequests 是一个非常流行的 Python 第三方库,用于简化 HTTP 请求。它允许你发送 HTTP/1.1 请求极其简单,而无需底层的socket库或urllib库。requests 库使得发起请求、处理…

如何使用 ChatGPT 生成万字长文?

要使用ChatGPT生成万字长文,可以采用以下方法,以保证文章结构清晰,内容充实: 1. 确定主题和大纲 明确主题:先确定文章的中心主题,例如技术、文学、历史、哲学等领域的具体问题。细化大纲:将主…

SpringBoot集成阿里easyexcel(二)Excel监听以及常用工具类

EasyExcel中非常重要的AnalysisEventListener类使用,继承该类并重写invoke、doAfterAllAnalysed,必要时重写onException方法。 Listener 中方法的执行顺序 首先先执行 invokeHeadMap() 读取表头,每一行都读完后,执行 invoke()方法…

Spring Boot助力:小徐影院管理系统

第二章开发技术介绍 2.1相关技术 小徐影城管理系统是在Java MySQL开发环境的基础上开发的。Java是一种服务器端脚本语言,易于学习,实用且面向用户。全球超过35%的Java驱动的互联网站点使用Java。MySQL是一个数据库管理系统,因为它…