36. Adam 算法详解

news/2024/9/13 22:37:26/ 标签: 算法

Adam（Adaptive Moment Estimation）是一种结合动量法和自适应学习率的优化算法，自2014年提出以来，迅速成为深度学习中最流行和常用的优化算法之一。Adam算法的核心思想是利用梯度的一阶动量和二阶动量来动态调整学习率，既保持了动量法的优点，又结合了RMSProp的自适应学习率特性。

Adam 算法原理

Adam算法通过计算梯度的一阶动量（即梯度的指数加权平均）和二阶动量（即梯度平方的指数加权平均）来调整每个参数的学习率。具体公式如下：

1. 梯度的一阶动量：
\[ m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t \]

2. 梯度的二阶动量：
\[ v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2 \]

3. 偏差修正：
\[ \hat{m}_t = \frac{m_t}{1 - \beta_1^t} \]
\[ \hat{v}_t = \frac{v_t}{1 - \beta_2^t} \]

4. 更新参数：
\[ \theta_{t+1} = \theta_t - \frac{\alpha \hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon} \]

其中：
- \( \beta_1 \) 和 \( \beta_2 \) 分别是动量和均方根动量的衰减率，常用值为 \( \beta_1 = 0.9 \) 和 \( \beta_2 = 0.999 \)。
- \( \epsilon \) 是一个很小的常数，用于防止分母为零，常用值为 \( 10^{-8} \)。

Adam 优缺点

优点：

- 自适应学习率：根据一阶动量和二阶动量动态调整每个参数的学习率，使得训练过程更加稳定。
- 快速收敛：结合动量法的加速特性和RMSProp的平稳特性，能够快速收敛到最优解。
- 适用于大规模数据：对于大规模数据和稀疏梯度，表现出色。

缺点：

- 参数较多：Adam算法需要调整的超参数较多（例如 \( \beta_1, \beta_2, \epsilon \)），调参复杂度高。
- 可能不稳定：在某些情况下，Adam可能会出现不稳定的收敛行为。

Adam 代码实现

下面是一个使用Adam优化器的示例代码：

import torch
import matplotlib.pyplot as plt# 定义超参数
learning_rate = 0.001
epochs = 100# 随机生成数据
x = torch.randn(100, 1)
y = 2 * x + 3 + torch.randn(100, 1) * 0.5# 初始化参数
w = torch.randn(1, requires_grad=True)
b = torch.zeros(1, requires_grad=True)# 定义Adam优化器
optimizer = torch.optim.Adam([w, b], lr=learning_rate)# 记录损失
losses = []for epoch in range(epochs):# 预测y_pred = x * w + b# 计算损失loss = torch.mean((y_pred - y) ** 2)losses.append(loss.item())# 清空梯度optimizer.zero_grad()# 反向传播loss.backward()# 更新参数optimizer.step()# 可视化训练过程
plt.plot(range(epochs), losses)
plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Training Loss with Adam')
plt.show()

Adam 与其他算法的比较

Adam算法集成了SGD、动量法、Adagrad、Adadelta等多种优化算法的优点，具有快速收敛和稳定的特点。以下是它与其他算法的对比：

1. SGD：基本的随机梯度下降法，收敛速度较慢，易陷入局部最优。
2. 动量法：在SGD基础上加入一阶动量，加速收敛，但仍然可能陷入局部最优。
3. Adagrad：自适应学习率，但对历史梯度的累积会导致学习率不断减小，后期训练缓慢。
4. RMSProp：改进了Adagrad，通过引入衰减系数解决学习率不断减小的问题。
5. Adam：结合动量法和RMSProp的优点，具有快速收敛和稳定的特点，是目前最常用的优化算法。