赶时间请直接看加粗的四种算法,它们占据不同的生态位,请根据实际任务需要去选择他们,在强化学习的子领域(多智能体、分层强化学习、逆向强化学习也会以它们为基础开发新的算法):
- 离散动作空间推荐:Dueling DoubleDQN(D3QN)
- 连续动作空间推荐:擅长调参就用 TD3,不擅长调参就用 PPO 或 SAC,如果训练环境 Reward function 都是初学者写的,那就用 PPO
没入门深度强化学习的人请按顺序学习以下算法:
- 入门深度学习 / 机器学习,用多层全连接层跑一下 MNIST 数据集
- 入门深度学习 / 深度学习框架,用卷积网络跑一下 MNIST-fashion 数据集
- 入门经典强化学习 Q-learning,离散状态、离散动作
- 入门深度强化学习 DQN(Deep Q-learning),连续状态、离散动作
- 入门深度强化学习 DDPG(Deep DPG),连续状态,连续动作
- 入门后,可以先从 TD3、SAC 和 PPO 三种算法开始用起
用于入门的算法只能用来入门,实际做项目不要使用,至少也要用加粗的算法,尽管它们不是 2021 的 SotA(State of the Art 最高水准的算法),但已经足够好用且不至于太复杂**。**一些性能卓越但是复杂的算法,我会写在下面。为了方便你们了解强化学习的子领域,我会列举突出研究成果,并写上短介绍。若