在Pytorch中为不同层设置不同学习率来提升性能,优化深度学习模型

news/2024/10/5 21:29:23/

深度学习模型的训练过程中,学习率作为一个关键的超参数,对模型的收敛速度和最终性能有着重大影响。传统方法通常采用统一的学习率,但随着研究的深入,我们发现为网络的不同层设置不同的学习率可能会带来显著的性能提升。本文将详细探讨这一策略的实施方法及其在PyTorch框架中的具体应用。

层级学习率的理论基础

深度神经网络的不同层次在特征提取和信息处理上扮演着不同的角色。基于这一认知,我们可以合理推断对不同层采用差异化的学习策略可能会更有效:

  1. 底层特征提取:网络的前几层通常负责捕获通用的低级特征,如边缘、纹理等。这些特征往往具有较强的通用性和可迁移性。
  2. 高层语义理解:网络的后几层则倾向于提取更为抽象和任务相关的高级特征。
  3. 任务特定层:如全连接分类层,直接与特定任务相关。

基于上述观察我们可以制定相应的学习率策略:

  • 对于预训练的底层,使用较小的学习率以保持其已学到的通用特征。
  • 对于中间层,可以采用适中的学习率。
  • 对于任务特定的顶层,则可以使用较大的学习率以快速适应新任务。

PyTorch实现:以ResNet为例

下面我们将以ResNet18为例,演示如何在PyTorch中实现层级学习率设置。

1、模型定义

首先,我们加载预训练的ResNet18模型,并修改其最后一层以适应新的分类任务:

 importtorchimporttorch.nnasnnimporttorchvision.modelsasmodels# 加载预训练的ResNet18模型model=models.resnet18(pretrained=True)# 修改最后的全连接层以适应新的分类任务num_classes=10  # 假设新任务有10个类别model.fc=nn.Linear(model.fc.in_features, num_classes)

2、参数分组

接下来,我们将模型参数分组,为不同的层设置不同的学习率:

 # 定义不同组的学习率backbone_lr=1e-4  # 较小的学习率用于预训练的主干网络classifier_lr=1e-3  # 较大的学习率用于新的分类器层# 创建参数组params= [{'params': model.conv1.parameters(), 'lr': backbone_lr},{'params': model.bn1.parameters(), 'lr': backbone_lr},{'params': model.layer1.parameters(), 'lr': backbone_lr},{'params': model.layer2.parameters(), 'lr': backbone_lr},{'params': model.layer3.parameters(), 'lr': backbone_lr},{'params': model.layer4.parameters(), 'lr': backbone_lr},{'params': model.fc.parameters(), 'lr': classifier_lr}]

此处我们对ResNet的各个组件进行了更细致的划分,为不同的层组设置了相应的学习率。这种方法允许我们对模型的学习过程进行更精细的控制。

优化器配置与训练过程

3、优化器设置

在确定了参数分组后,我们需要选择合适的优化器并进行配置。这里我们简单的选用Adam优化器

 optimizer=torch.optim.Adam(params)

这种分组策略同样适用于其他PyTorch支持的优化器,PyTorch的优化器会自动识别并应用在参数分组中定义的不同学习率。这种设计使得实现层级学习率变得相对简单。

4、训练循环

实现了层级学习率后的训练循环保持不变。PyTorch会在后台自动处理不同参数组的学习率:

 # 定义损失函数criterion=nn.CrossEntropyLoss()# 训练循环forepochinrange(num_epochs):model.train()forinputs, labelsintrain_loader:optimizer.zero_grad()outputs=model(inputs)loss=criterion(outputs, labels)loss.backward()optimizer.step()# 在每个epoch结束后进行验证model.eval()# ... [验证代码]

5、学习率调度

除了设置初始的层级学习率,我们还可以结合学习率调度器来动态调整学习率。PyTorch提供了多种学习率调度器,如

StepLR

ReduceLROnPlateau

等。以下是一个使用

StepLR

的示例:

 fromtorch.optim.lr_schedulerimportStepLRscheduler=StepLR(optimizer, step_size=30, gamma=0.1)# 在训练循环中更新学习率forepochinrange(num_epochs):# ... [训练代码]scheduler.step()

这将每30个epoch将所有参数组的学习率降低为原来的0.1倍。

高级学习率优化技巧

1、渐进式解冻

在微调预训练模型时,一种有效的策略是渐进式解冻。我们可以先锁定底层,只训练顶层,然后逐步解冻更多的层:

 # 初始阶段:只训练分类器forparaminmodel.parameters():param.requires_grad=Falsemodel.fc.requires_grad=True# 训练几个epoch后model.layer4.requires_grad=True# 再过几个epochmodel.layer3.requires_grad=True

以此类推,冻结其实意味着学习率为0,也就是不对任何参数进行更新。

2、层适应学习率

我们上面已经介绍了手动指定固定的学习率,其实我们还可以通过自定义优化器来实现,不同的层的不同的学习率范围。我们可以实现一个自定义的优化器来自动调整每一层的学习率:

 classLayerAdaptiveLR(torch.optim.Adam):def__init__(self, params, lr=1e-3, betas=(0.9, 0.999), eps=1e-8, weight_decay=0):super().__init__(params, lr, betas, eps, weight_decay)self.param_groups=sorted(self.param_groups, key=lambdax: id(x['params'][0]))defstep(self, closure=None):loss=NoneifclosureisnotNone:loss=closure()forgroupinself.param_groups:forpingroup['params']:ifp.gradisNone:continuegrad=p.grad.datastate=self.state[p]# 根据梯度统计调整学习率iflen(state) ==0:state['step'] =0state['exp_avg'] =torch.zeros_like(p.data)state['exp_avg_sq'] =torch.zeros_like(p.data)exp_avg, exp_avg_sq=state['exp_avg'], state['exp_avg_sq']beta1, beta2=group['betas']state['step'] +=1exp_avg.mul_(beta1).add_(grad, alpha=1-beta1)exp_avg_sq.mul_(beta2).addcmul_(grad, grad, value=1-beta2)denom=exp_avg_sq.sqrt().add_(group['eps'])# 动态调整学习率step_size=group['lr'] * (exp_avg.abs() /denom).mean().item()p.data.add_(exp_avg, alpha=-step_size)returnloss# 使用示例optimizer=LayerAdaptiveLR(model.parameters(), lr=1e-3)

可以看到,上面我们继承自Adam优化器,这里我们不用实现优化过程只针对于针对层的学习率变化即可。

总结

层级学习率设置是一种强大的优化技术,特别适用于迁移学习和微调预训练模型的场景。通过精心设计的学习率策略,可以在保留预训练模型通用特征的同时有效地适应新任务。结合其他高级技巧,如渐进式解冻、层适应学习率,可以进一步提升模型的训练效率和性能。

在实际应用中,最佳的学习率配置往往需要通过实验来确定。建议研究者根据具体任务和模型架构进行适当的调整和实验,以获得最佳的训练效果。

https://avoid.overfit.cn/post/c13411d085974b02bad98504f3ae3fc1


http://www.ppmy.cn/news/1535116.html

相关文章

震动传感器介绍及实战

目录 前言 震动传感器 1.震动传感器配图 2.震动传感器原理图 3.震动传感器使用 1-震动传感器的意义 2-震动传感器的应用场景 3- SW-18010P震动传感器使用方法 震动传感器控制灯 操作 增加延时 使用SPC-ISP生成演示函数 总结 前言 我们上节已经简单了解了LED的使用…

Github 2024-10-05Rust开源项目日报Top10

根据Github Trendings的统计,今日(2024-10-05统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Rust项目10HTML项目1Move项目1Python项目1精选Rust资源清单 创建周期:3733 天开发语言:Rust协议类型:Creative Commons Zero v1.0 Universal…

第十四届蓝桥杯真题Java c组D.平均(持续更新)

博客主页:音符犹如代码系列专栏:蓝桥杯关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 【问题描述】 有一个长度为n的数组(n是10的倍数),每个数 …

区间覆盖(贪心)

给定 NN 个闭区间 [ai,bi][ai,bi] 以及一个线段区间 [s,t][s,t],请你选择尽量少的区间,将指定线段区间完全覆盖。 输出最少区间数,如果无法完全覆盖则输出 −1−1。 输入格式 第一行包含两个整数 ss 和 tt,表示给定线段区间的两…

低功耗4G模组Air780E之串口通信篇

你对低功耗4G模组Air780E有多少了解? 今天我们来讲解低功耗4G模组Air780E的串口通信的基本用法,小伙伴们,学起来吧! 一、硬件准备 780E开发板一套,包括天线、USB数据线。 USB转TTL工具或线(例如ch340、…

Qt教程(001):Qt概述与安装

文章目录 一、Qt概述1.1 什么是Qt1.2 Qt优点1.3 Qt发展史1.4 支持的平台1.5 成功案例1.6 下载安装1.7 QtCreator介绍 一、Qt概述 1.1 什么是Qt Qt是一个跨平台的C图形用户界面应用程序框架。它为应用程序开发者提供建立艺术级图形界面所需的所有功能。它是完全面向对象的&…

红外画面空中目标检测系统源码分享

红外画面空中目标检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Comp…

25重庆长安深蓝控制器开发面试经验 深蓝最常见面试问题总结

【面试经历】 秋招气氛组选手的第一场面试,9.17网申,9.24电话约面,9.26线上面试。问得很细,全长约1个小时 1. 自我介绍、项目介绍 2.项目细节,遇到了哪些困难;有没有PCB设计经验DC-DC芯片选型,电源噪声的原因、怎么消除、 3.画BUCK和BOOST拓扑图,讲原理 4.了解MCU的主…