深度强化学习算法的参数更新时机
深度强化学习中往往涉及到多个神经网络来拟合策略函数、值函数等,什么时候更新参数因算法而异,与具体算法架构/算法思想紧密相关。
算法 | 参数更新时机 | 架构 |
---|---|---|
DQN | 先收集一定经验,然后每步更新 | Off Policy Value-Based |
DDPG | 先收集一定经验,然后每步更新 | Off Policy Actor-Critic |
TD3 | 先收集一定经验,然后每步更新 | Off Policy Actor-Critic |
SAC | 先收集一定经验,然后每步更新 | Off Policy Actor-Critic |
REINFORCE | 每步更新 | On Policy Policy Gradient |
VPG | 每个episode更新一次 | On Policy Actor-Critic |
A2C/A3C | 每步更新 | On Policy Actor-Critic |
PPO | 每个episode采集结束后,集中抽样更新多次 | On Policy Actor-Critic |
TRPO | 每个episode采集结束后,集中抽样更新多次 | On Policy Actor-Critic |