大模型微调中warmup(学习率预热)是什么
在大模型微调中,添加warmup(学习率预热)是指在训练初期逐步增加学习率,避免直接使用高学习率导致参数震荡。
🔧 为什么需要warmup?
- 大模型参数敏感:预训练模型的参数已接近最优,初期用大学习率可能剧烈扰动参数(如“急刹车”),导致损失震荡、过拟合。
- 数据分布差异:微调数据与预训练数据分布不同,模型需要“适应期”,小学习率更稳健。
🚗 类比理解
- 无warmup:起步猛踩油门,车容易熄火或打滑(参数震荡)。
- 有warmup:缓慢加速**(学习率从0→目标值),平稳过渡后正常行驶(稳定训练)**。
<