如何选择深度强化学习算法:MuZero/SAC/PPO/TD3/DDPG/DQN/等算法

news/2024/11/7 5:23:41/

赶时间请直接看加粗的四种算法,它们占据不同的生态位,请根据实际任务需要去选择他们,在强化学习的子领域(多智能体、分层强化学习、逆向强化学习也会以它们为基础开发新的算法):

  • 离散动作空间推荐:Dueling DoubleDQN(D3QN)
  • 连续动作空间推荐:擅长调参就用 TD3,不擅长调参就用 PPO 或 SAC,如果训练环境 Reward function 都是初学者写的,那就用 PPO

没入门深度强化学习的人请按顺序学习以下算法:

  • 入门深度学习 / 机器学习,用多层全连接层跑一下 MNIST 数据集
  • 入门深度学习 / 深度学习框架,用卷积网络跑一下 MNIST-fashion 数据集
  • 入门经典强化学习 Q-learning,离散状态、离散动作
  • 入门深度强化学习 DQN(Deep Q-learning),连续状态、离散动作
  • 入门深度强化学习 DDPG(Deep DPG),连续状态,连续动作
  • 入门后,可以先从 TD3、SAC 和 PPO 三种算法开始用起

用于入门的算法只能用来入门,实际做项目不要使用,至少也要用加粗的算法,尽管它们不是 2021 的 SotA(State of the Art 最高水准的算法),但已经足够好用且不至于太复杂**。**一些性能卓越但是复杂的算法,我会写在下面。为了方便你们了解强化学习的子领域,我会列举突出研究成果,并写上短介绍。若


http://www.ppmy.cn/news/884472.html

相关文章

新字符设备驱动实验

目录: 1. 新字符设备驱动原理1.1. 分配和释放设备号1.2. 添加字符设备 2.自动创建设备节点2.1. mdev机制2.2. 创建和删除类2.3. 创建设备2.4. 新字符设备驱动框架总结 3. 文件结构体和文件私有数据4. 实验程序编写4.1. 驱动程序4.2. 应用程序 5. 运行测试 1. 新字符…

网址集合2022

网址集合 部署Consoul 全局捕获异常 less语法 经典的40道js题 reatc-quilljs中文文档 ProComponents java反编译

幼教网址大全

为了方便幼儿园的老师和园长实用好的网站,做了一个幼教网址大全的页面:www.123.51yey.com在这里几乎能找到所有的好的幼教网站。 比如,如果幼儿园招聘老师可以直接在这里找到专业的招聘老师的网站,在这几个网站发布信息会使幼儿园…

App隐私政策网址(URL)

本软件尊重并保护所有使用服务用户的个人隐私权。为了给您提供更准确、更有个性化的服务,本软件会按照本隐私权政策的规定使用和披露您的个人信息。但本软件将以高度的勤勉、审慎义务对待这些信息。除本隐私权政策另有规定外,在未征得您事先许可的情况下…

免费将网址转换二维码

对于网络营销而言,官网影响力不言而喻的,如何将建设好的网站推广出去呢?或许给网站添加二维码,对网站有一定的宣传推广作用,用户可以通过手机扫描网站二维码就可以直接浏览网站,且关注网站。 通过扫描二维…

推荐一个找paper和code的网址

今天给大家推荐一个 https://paperswithcode.com/sota 在这个网站上能找到最新的paper排名还有paper对应的code。 这是计算机视觉的, 自然语言处理 点击物体检测进去看看 恭喜Swinv2又双霸榜了!!!! 画红框的位置就…

sysconfig看不了怎么更新_sysconfig老版本下载-sysconfig稳定版(能看的版本)_5577安卓网...

sysconfig老版本下载分享给大家。sysconfig老版本具有非常稳定的特点,加载速度快,不会黑屏崩溃,提高了用户的体验!sysconfig是一个超级牛逼的播放器应用,它能给你带来你所有想看的视频,如果你是一个影视剧迷,一定不要错过了! 【软件功能】 1、经典易用的播放器皮肤界面…

网址的构成

一般来说我们访问一个远程的东东,依靠的就是网址。网址的构成是固定的,http://域名/项目名/包结构/.../文件名。其中,没有备案的域名,就是ip构成的。这里说的ip,指的是ipv4的地址,即由4个三位数字构成的地址,ipv6暂时不说。但是,ip地址也是分好多类的,比如网络ip地址,…