pytorch:nn.ModuleList和nn.Sequential、list的用法以及区别

news/2024/11/17 19:42:45/

文章目录

在构建网络的时候,pytorch有一些基础概念很重要,比如nn.Module,nn.ModuleList,nn.Sequential,这些类我们称为为容器(containers),可参考containers。本文中我们主要学习nn.ModuleList和nn.Sequential,并判断在什么时候用哪一个比较合适。

1. nn.ModuleList和nn.Sequential简介

nn.ModuleList

nn.ModuleList,它是一个存储不同module,并自动将每个module的parameters添加到网络之中的容器。你可以把任意nn.Module的子类(如nn.Conv2d,nn.Linear等)加到这个list里面,方法和python自带的list一样,无非是extend,append等操作,但不同于一般的list,加入到nn.ModuleList里面的module是会自动注册到整个网络上的,同时module的parameters也会自动添加到整个网络中。若使用python的list,则会出问题。

  1. class net1(nn.Module):
  2. def __init__(self):
  3. super(net1, self).__init__()
  4. self.linears = nn.ModuleList([nn.Linear(10,10) for i in range(2)])
  5. def forward(self, x):
  6. for m in self.linears:
  7. x = m(x)
  8. return x
  9. net = net1()
  10. print(net)
  11. # net1(
  12. # (modules): ModuleList(
  13. # (0): Linear(in_features=10, out_features=10, bias=True)
  14. # (1): Linear(in_features=10, out_features=10, bias=True)
  15. # )
  16. # )
  17. for param in net.parameters():
  18. print(type(param.data), param.size())
  19. # <class 'torch.Tensor'> torch.Size([10, 10])
  20. # <class 'torch.Tensor'> torch.Size([10])
  21. # <class 'torch.Tensor'> torch.Size([10, 10])
  22. # <class 'torch.Tensor'> torch.Size([10])

可以看到,这个网络权重(weights)和偏置(bias)都在这个网络之内。而对于使用python自带list的例子如下:
 

  1. class net2(nn.Module):
  2. def __init__(self):
  3. super(net2, self).__init__()
  4. self.linears = [nn.Linear(10,10) for i in range(2)]
  5. def forward(self, x):
  6. for m in self.linears:
  7. x = m(x)
  8. return x
  9. net = net2()
  10. print(net)
  11. # net2()
  12. print(list(net.parameters()))
  13. # []

显然,使用python的list添加的卷积层和它们的parameters并没有自动注册到我们的网络中。当然,我们还是可以使用forward来计算输出结果。但是如果用其实例化的网络进行训练的时候,因为这些层的parameters不在整个网络之中,所以其网络参数也不会被更新,也就是无法训练。

 

但是,我们需要注意到,nn.ModuleList并没有定义一个网络,它只是将不同的模块储存在一起,这些模块之间并没有什么先后顺序可言,比如:

  1. class net3(nn.Module):
  2. def __init__(self):
  3. super(net3, self).__init__()
  4. self.linears = nn.ModuleList([nn.Linear(10,20), nn.Linear(20,30), nn.Linear(5,10)])
  5. def forward(self, x):
  6. x = self.linears[2](x)
  7. x = self.linears[0](x)
  8. x = self.linears[1](x)
  9. return x
  10. net = net3()
  11. print(net)
  12. # net3(
  13. # (linears): ModuleList(
  14. # (0): Linear(in_features=10, out_features=20, bias=True)
  15. # (1): Linear(in_features=20, out_features=30, bias=True)
  16. # (2): Linear(in_features=5, out_features=10, bias=True)
  17. # )
  18. # )
  19. input = torch.randn(32, 5)
  20. print(net(input).shape)
  21. # torch.Size([32, 30])

根据net3的结果,我们可以看出ModuleList里面的顺序并不能决定什么,网络的执行顺序是根据forward函数来决定的。但是一般设置ModuleList中的顺序和forward中保持一致,增强代码的可读性。

我们再来考虑另一种情况,既然ModuleList可以根据序号来调用,那么一个模型可以在forward函数中被调用多次。但需要注意的是,被调用多次的模块,是使用同一组parameters的,也就是它们是参数共享的。

  1. class net4(nn.Module):
  2. def __init__(self):
  3. super(net4, self).__init__()
  4. self.linears = nn.ModuleList([nn.Linear(5, 10), nn.Linear(10, 10)])
  5. def forward(self, x):
  6. x = self.linears[0](x)
  7. x = self.linears[1](x)
  8. x = self.linears[1](x)
  9. return x
  10. net = net4()
  11. print(net)
  12. # net4(
  13. # (linears): ModuleList(
  14. # (0): Linear(in_features=5, out_features=10, bias=True)
  15. # (1): Linear(in_features=10, out_features=10, bias=True)
  16. # )
  17. # )
  18. for name, param in net.named_parameters():
  19. print(name, param.size())
  20. # linears.0.weight torch.Size([10, 5])
  21. # linears.0.bias torch.Size([10])
  22. # linears.1.weight torch.Size([10, 10])
  23. # linears.1.bias torch.Size([10])

 

nn.Sequential

不同于nn.ModuleList,nn.Sequential已经实现了内部的forward函数,而且里面的模块必须是按照顺序进行排列的,所以我们必须确保前一个模块的输出大小和下一个模块的输入大小是一致的。

  1. class net5(nn.Module):
  2. def __init__(self):
  3. super(net5, self).__init__()
  4. self.block = nn.Sequential(nn.Conv2d(1,20,5),
  5. nn.ReLU(),
  6. nn.Conv2d(20,64,5),
  7. nn.ReLU())
  8. def forward(self, x):
  9. x = self.block(x)
  10. return x
  11. net = net5()
  12. print(net)
  13. # net5(
  14. # (block): Sequential(
  15. # (0): Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1))
  16. # (1): ReLU()
  17. # (2): Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1))
  18. # (3): ReLU()
  19. # )
  20. # )

下面给出了两个nn.Sequential初始化的例子,在第二个初始化中我们用到了OrderedDict来指定每个module的名字

  1. # Example of using Sequential
  2. model1 = nn.Sequential(
  3. nn.Conv2d(1,20,5),
  4. nn.ReLU(),
  5. nn.Conv2d(20,64,5),
  6. nn.ReLU()
  7. )
  8. print(model1)
  9. # Sequential(
  10. # (0): Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1))
  11. # (1): ReLU()
  12. # (2): Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1))
  13. # (3): ReLU()
  14. # )
  15. # Example of using Sequential with OrderedDict
  16. import collections
  17. model2 = nn.Sequential(collections.OrderedDict([
  18. ('conv1', nn.Conv2d(1,20,5)),
  19. ('relu1', nn.ReLU()),
  20. ('conv2', nn.Conv2d(20,64,5)),
  21. ('relu2', nn.ReLU())
  22. ]))
  23. print(model2)
  24. # Sequential(
  25. # (conv1): Conv2d(1, 20, kernel_size=(5, 5), stride=(1, 1))
  26. # (relu1): ReLU()
  27. # (conv2): Conv2d(20, 64, kernel_size=(5, 5), stride=(1, 1))
  28. # (relu2): ReLU()
  29. # )

有同学可能发现了,诶,你这个 model1 和 从类 net5 实例化来的 net 有什么区别吗?是没有的。这两个网络是相同的,因为 nn.Sequential 就是一个 nn.Module 的子类,也就是 nn.Module 所有的方法 (method) 它都有。并且直接使用 nn.Sequential 不用写 forward 函数,因为它内部已经帮你写好了。

这时候有同学该说了,既然 nn.Sequential 这么好,我以后都直接用它了。如果你确定 nn.Sequential 里面的顺序是你想要的,而且不需要再添加一些其他处理的函数 (比如 nn.functional 里面的函数,nn 与 nn.functional 有什么区别? ),那么完全可以直接用 nn.Sequential。这么做的代价就是失去了部分灵活性,毕竟不能自己去定制 forward 函数里面的内容了。

一般情况下 nn.Sequential 的用法是来组成卷积块 (block),然后像拼积木一样把不同的 block 拼成整个网络,让代码更简洁,更加结构化。

 

2.nn.Sequential与nn.ModuleList的区别

不同点1:nn.Sequential内部实现了forward函数,因此可以不用写forward函数,而nn.ModuleList则没有实现内部forward函数。

不同点2:nn.Sequential可以使用OrderedDict对每层进行命名。

不同点3:nn.Sequential里面的模块按照顺序进行排列的,所以必须确保前一个模块的输出大小和下一个模块的输入大小是一致的。而nn.ModuleList 并没有定义一个网络,它只是将不同的模块储存在一起,这些模块之间并没有什么先后顺序可言。

不同点4:有的时候网络中有很多相似或者重复的层,我们一般会考虑用 for 循环来创建它们,而不是一行一行地写,比如:

layers = [nn.Linear(10, 10) for i in range(5)]

那么这里我们使用ModuleList:

  1. class net4(nn.Module):
  2. def __init__(self):
  3. super(net4, self).__init__()
  4. layers = [nn.Linear(10, 10) for i in range(5)]
  5. self.linears = nn.ModuleList(layers)
  6. def forward(self, x):
  7. for layer in self.linears:
  8. x = layer(x)
  9. return x
  10. net = net4()
  11. print(net)
  12. # net4(
  13. # (linears): ModuleList(
  14. # (0): Linear(in_features=10, out_features=10, bias=True)
  15. # (1): Linear(in_features=10, out_features=10, bias=True)
  16. # (2): Linear(in_features=10, out_features=10, bias=True)
  17. # )
  18. # )

这个是比较一般的方法,但如果不想这么麻烦,我们也可以用 Sequential 来实现,如 net7 所示!注意 * 这个操作符,它可以把一个 list 拆开成一个个独立的元素。但是,请注意这个 list 里面的模块必须是按照想要的顺序来进行排列的。在 场景一 中,我个人觉得使用 net7 这种方法比较方便和整洁。

  1. class net7(nn.Module):
  2. def __init__(self):
  3. super(net7, self).__init__()
  4. self.linear_list = [nn.Linear(10, 10) for i in range(3)]
  5. self.linears = nn.Sequential(*self.linears_list)
  6. def forward(self, x):
  7. self.x = self.linears(x)
  8. return x
  9. net = net7()
  10. print(net)
  11. # net7(
  12. # (linears): Sequential(
  13. # (0): Linear(in_features=10, out_features=10, bias=True)
  14. # (1): Linear(in_features=10, out_features=10, bias=True)
  15. # (2): Linear(in_features=10, out_features=10, bias=True)
  16. # )
  17. # )

下面我们考虑 场景二,当我们需要之前层的信息的时候,比如 ResNets 中的 shortcut 结构,或者是像 FCN 中用到的 skip architecture 之类的,当前层的结果需要和之前层中的结果进行融合,一般使用 ModuleList 比较方便,一个非常简单的例子如下:

  1. class net8(nn.Module):
  2. def __init__(self):
  3. super(net8, self).__init__()
  4. self.linears = nn.ModuleList([nn.Linear(10, 20), nn.Linear(20, 30), nn.Linear(30, 50)])
  5. self.trace = []
  6. def forward(self, x):
  7. for layer in self.linears:
  8. x = layer(x)
  9. self.trace.append(x)
  10. return x
  11. net = net8()
  12. input = torch.randn(32, 10) # input batch size: 32
  13. output = net(input)
  14. for each in net.trace:
  15. print(each.shape)
  16. # torch.Size([32, 20])
  17. # torch.Size([32, 30])
  18. # torch.Size([32, 50])

我们使用了一个 trace 的列表来储存网络每层的输出结果,这样如果以后的层要用的话,就可以很方便地调用了。

 


http://www.ppmy.cn/news/76457.html

相关文章

pytorch如何调用m1芯片的显卡进行深度模型训练

加速原理 苹果有自己的一套GPU实现API — Metal&#xff0c;而Pytorch此次的加速就是基于Metal&#xff0c;具体来说&#xff0c;使用苹果的Metal Performance Shaders&#xff08;MPS&#xff09;作为PyTorch的后端&#xff0c;可以实现加速GPU训练。MPS后端扩展了PyTorch框架…

【程序员必须避免的一些陷阱和错误】

对于程序员来说&#xff0c;有很多需要注意的事项&#xff0c;下面列举一些绝对不能踩的坑以及编写代码时需要特别注意的流程&#xff1a; 不要忽视边界条件&#xff1a;边界条件是指极端情况下的输入或输出。在编写程序时&#xff0c;应该注意考虑所有可能出现的情况&#xff…

遇到一个同事,喜欢查其他同事的BUG,然后截图发工作大群里,还喜欢甩锅,该怎么办?...

职场上都有哪些奇葩同事&#xff1f; 一位网友吐槽&#xff1a; 遇到一个同事&#xff0c;喜欢查同级别同事的bug&#xff0c;截图发工作群&#xff0c;甚至发大群里&#xff0c;还喜欢甩锅&#xff0c;该怎么办&#xff1f; 职场工贼&#xff0c;人人喊打&#xff0c;网友们纷…

GitLab服务器搭建

文章目录 前述方式一&#xff1a;非容器安装搭建GitLab服务器查看gitlab用户的初始密码&#xff1a;修改初始密码gitlab配置文件修改服务的端口号启动并访问服务 方式二&#xff1a;容器下安装基于Docker安装Docker在容器中安装gitlab服务宿主机配置修改容器配置修改启动并访问…

新星计划 uni-app 学习2

uni-app 学习资料&#xff1a;uni-app官网 教程地址&#xff1a;uni-app官网 官方给的很多视频地址&#xff0c;省的自己找。 前一阵子在apicloud群里吃瓜&#xff0c;该平台不再指出svn管理项目&#xff0c;集中到开发的ide里设置git&#xff0c;还有一个用友割韭菜。看官网…

2023河海大学838计算机学硕考研高分经验分享

大家好&#xff0c;我是陪你考研每一天的大巴学长。 大巴学长为大家邀请到了2023年838计算机学硕初试第二名的高分学长&#xff0c;为大家分享一下他的考研经验&#xff0c;经验里详细介绍了各科的复习方法&#xff0c;很有参考意义。 希望对大家有所借鉴和帮助&#xff0c;在…

基于FPGA的车牌识别

基于FPGA进行车牌识别 基于FPGA进行车牌识别 1. 文件说明2. 程序移植说明3. 小小的编程感想 本项目的原理讲解视频已经上传到B站“基于FPGA进行车牌识别”。 本项目全部开源&#xff0c;见我本人的Github仓库“License-Plate-Recognition-FPGA”。 1. 文件说明 小技巧&…

CTPN论文翻译与思考

CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network 文章目录 CTPN: Detecting Text in Natural Image with Connectionist Text Proposal Network摘要关键词1. 引言1.1 贡献 2. 相关工作3. 连接文本提议网络3.1 在细粒度提议中检测文本3.2 循环…