深度学习中学习率调整策略

embedded/2025/3/18 21:29:13/

学习率衰减策略是深度学习优化过程中的一个关键因素,它决定了训练过程中学习率的调整方式,从而影响模型收敛的速度和效果。不同的衰减策略在不同的任务和模型上可能有不同的表现,下面从我用到过的几个衰减策略进行记录,后续慢慢跟进。

为什么需要学习率衰减?

在训练深度学习模型时,学习率的选择至关重要。通常,我们希望模型能够在训练的早期阶段较快地收敛(即较大的学习率),而在训练的后期阶段逐渐减小学习率,以便模型能够更精细地调整参数,避免错过局部最优点。

阶梯衰减Step Decay

这是最简单常用的学习率调整方法,每过step_size轮,将此前的学习率乘以gamma。

torch.optim.lr_scheduler.StepLR(optimizer, step_size=30, gamma=0.1)

余弦退火调整学习率 CosineAnnealingLR

在每个周期内,学习率从初始学习率(lr0)开始,经过余弦函数的逐渐衰减,最后衰减到最小学习率(eta_min)。

torch.optim.lr_scheduler.CosineAnnealingLR(
optimizer, 
T_max,     
eta_min=0,
last_epoch=-1)

T_max:指定一个完整的周期(例如,多少个训练步长或 epoch)。在 T_max 的周期内,学习率会从初始学习率衰减到 eta_min

eta_min=0:最终学习率

last_epoch=-1:指定上次训练的最后一个epoch,-1就是从头开始训练

余弦退火重启学习率 CosineAnnealingWarmRestarts

CosineAnnealingWarmRestarts 通过将学习率沿着一个余弦曲线逐渐衰减到最小值(eta_min),然后在周期结束时重启并回升到初始学习率(lr0),这种周期性的重启和余弦退火帮助模型在每个阶段进行不同范围的探索,避免陷入局部最优。

scheduler = torch.optim.lr_scheduler.CosineAnnealingWarmRestarts(
optimizer, 
T_0, 
T_mult=1, 
eta_min=0,
last_epoch=- 1, 
verbose=False)

T_0:第一个周期的长度,后续的长度基于T0和T_mult调整

T_mult:控制后续周期的长度,例如设置为2,那则第二个周期长度会是第一个周期的2倍,第三个周期的长度会是第二个周期的2倍,设置为1则每个周期一样长。

eta_min:这是学习率的最小值。在每个周期中,学习率会从 eta_max(初始学习率)衰减到 eta_min,然后在每个周期结束时重新回升到初始学习率。
verbose:如果设置为 True,则每次学习率重启时,调度器会输出日志信息,显示学习率调整的情况。例如,输出每次重启时的学习率和当前的训练状态。

线性衰减 Linear Decay

在线性衰减中,学习率随着训练的进展而线性地减小。学习率的减少是均匀的,每个时间步减少固定的量,直到达到预定的最小值

torch.optim.lr_scheduler.LinearLR(
optimizer,
start_factor=1,
end_factor=0.1,
total_iters=80)

LinearLR是线性学习率,给定起始factor和最终的factor,LinearLR会在中间阶段做线性插值,比如学习率为0.1,起始factor为1,最终的factor为0.1,那么第0次迭代,学习率将为0.1,最终轮学习率为0.01。下面设置的总轮数total_iters为80,所以超过80时,学习率恒为0.01。

指数衰减 Exponential Decay

学习率初期迅速下降,适合早期跳出局部最优,但可能导致后期过早收敛,适合大规模训练任务或对收敛速度有要求的情况。

torch.optim.lr_scheduler.ExponentialLR(
optimizer,
gamma=0.9)

ExponentialLR是指数型下降的学习率调节器,每一轮会将学习率乘以gamma,所以这里千万注意gamma不要设置的太小,不然几轮之后学习率就会降到0。

可视化

在这里插入图片描述


http://www.ppmy.cn/embedded/173680.html

相关文章

Vue Date 今天的开始时间与结束时间

在 Vue 项目里,要获取今天的开始时间与结束时间,可借助 JavaScript 的 Date 对象来实现。 在 JavaScript 里,date.getFullYear() 是 Date 对象的一个方法,主要用于获取 Date 对象所表示日期的年份,返回值是一个四位数…

mysql数据库中多张表导出成excel方式

需求: 用于将mysql数据库中的几百张表导出成excel方式 表中有些字段的值是含有双引号和逗号值,比如json值 表中有些字段是汉字内容 导出的excel要求有表的列名 shell对于含有逗号和双引号的值会错乱分割 数据库中某些字段值是化学符号 import pymysql,o…

浅谈AI落地之-加速训练

前言 曾在游戏世界挥洒创意,也曾在前端和后端的浪潮间穿梭,如今,而立的我仰望AI的璀璨星空,心潮澎湃,步履不停!愿你我皆乘风破浪,逐梦星辰! 混合精度: FL32是目前模型存…

低空经济安全保障体系构建方案

一、源头安全设计与认证 飞行器安全冗余设计 动力系统双备份:电动垂直起降(eVTOL)飞行器配备双电机、多电池组,单组故障仍可安全返航。轻量化结构材料:采用碳纤维复合材料+蜂窝夹层设计,抗坠毁强度提升30%。适航认证分级:参照民航标准,对载人/载货飞行器实施分级认证(…

Rust + WebAssembly 开发环境搭建指南

一、安装 Rust 工具链 要开始 Rust WebAssembly 开发,你需要安装标准 Rust 工具链,包括 rustup、rustc 和 cargo。 1. 安装 Rust 工具链 Rust 官方提供 rustup 工具来管理 Rust 版本。你可以使用以下命令安装 Rust: curl --proto https -…

游戏引擎学习第163天

我们可以在资源处理器中使用库 因为我们的资源处理器并不是游戏的一部分,所以它可以使用库。我说过我不介意让它使用库,而我提到这个的原因是,今天我们确实有一个选择——可以使用库。 生成字体位图的两种方式:求助于 Windows 或…

本周安全速报(2025.3.11~3.17)

合规速递 01 瑞士出台新规:关基设施遭遇网络攻击需在24小时内上报 原文: https://www.bleepingcomputer.com/news/security/swiss-critical-sector-faces-new-24-hour-cyberattack-reporting-rule/ 新规要求,关键基础设施组织发现网络攻击后&…

【MySQL】多表查询(笛卡尔积现象,联合查询、内连接、左外连接、右外连接、子查询)-通过练习快速掌握法

在DQL的基础查询中,我们已经学过了多表查询的一种:联合查询(union)。本文我们将系统的讲解多表查询。 笛卡尔积现象 首先,我们想要查询emp表和stu表两个表,按照我们之前的知识栈,我们直接使用…