如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法

如何选择深度强化学习算法：MuZero/SAC/PPO/TD3/DDPG/DQN/等算法

news/2024/11/7 5:23:41/

赶时间请直接看加粗的四种算法，它们占据不同的生态位，请根据实际任务需要去选择他们，在强化学习的子领域（多智能体、分层强化学习、逆向强化学习也会以它们为基础开发新的算法）：

离散动作空间推荐：Dueling DoubleDQN（D3QN）
连续动作空间推荐：擅长调参就用 TD3，不擅长调参就用 PPO 或 SAC，如果训练环境 Reward function 都是初学者写的，那就用 PPO

没入门深度强化学习的人请按顺序学习以下算法：

入门深度学习 / 机器学习，用多层全连接层跑一下 MNIST 数据集
入门深度学习 / 深度学习框架，用卷积网络跑一下 MNIST-fashion 数据集
入门经典强化学习 Q-learning，离散状态、离散动作
入门深度强化学习 DQN（Deep Q-learning），连续状态、离散动作
入门深度强化学习 DDPG（Deep DPG），连续状态，连续动作
入门后，可以先从 TD3、SAC 和 PPO 三种算法开始用起

用于入门的算法只能用来入门，实际做项目不要使用，至少也要用加粗的算法，尽管它们不是 2021 的 SotA（State of the Art 最高水准的算法），但已经足够好用且不至于太复杂**。**一些性能卓越但是复杂的算法，我会写在下面。为了方便你们了解强化学习的子领域，我会列举突出研究成果，并写上短介绍。若

http://www.ppmy.cn/news/884472.html

相关文章

新字符设备驱动实验

新字符设备驱动实验

目录： 1. 新字符设备驱动原理1.1. 分配和释放设备号1.2. 添加字符设备 2.自动创建设备节点2.1. mdev机制2.2. 创建和删除类2.3. 创建设备2.4. 新字符设备驱动框架总结 3. 文件结构体和文件私有数据4. 实验程序编写4.1. 驱动程序4.2. 应用程序 5. 运行测试 1. 新字符…

阅读更多...

网址集合2022

网址集合2022

网址集合部署Consoul 全局捕获异常 less语法经典的40道js题 reatc-quilljs中文文档 ProComponents java反编译

阅读更多...

幼教网址大全

幼教网址大全

为了方便幼儿园的老师和园长实用好的网站，做了一个幼教网址大全的页面：www.123.51yey.com在这里几乎能找到所有的好的幼教网站。比如，如果幼儿园招聘老师可以直接在这里找到专业的招聘老师的网站，在这几个网站发布信息会使幼儿园…

阅读更多...

App隐私政策网址(URL)

App隐私政策网址(URL)

本软件尊重并保护所有使用服务用户的个人隐私权。为了给您提供更准确、更有个性化的服务，本软件会按照本隐私权政策的规定使用和披露您的个人信息。但本软件将以高度的勤勉、审慎义务对待这些信息。除本隐私权政策另有规定外，在未征得您事先许可的情况下…

阅读更多...

免费将网址转换二维码

免费将网址转换二维码

对于网络营销而言，官网影响力不言而喻的，如何将建设好的网站推广出去呢？或许给网站添加二维码，对网站有一定的宣传推广作用，用户可以通过手机扫描网站二维码就可以直接浏览网站，且关注网站。通过扫描二维…

阅读更多...

推荐一个找paper和code的网址

推荐一个找paper和code的网址

今天给大家推荐一个 https://paperswithcode.com/sota 在这个网站上能找到最新的paper排名还有paper对应的code。这是计算机视觉的， 自然语言处理点击物体检测进去看看恭喜Swinv2又双霸榜了！！！！ 画红框的位置就…

阅读更多...

sysconfig看不了怎么更新_sysconfig老版本下载-sysconfig稳定版(能看的版本)_5577安卓网...

sysconfig看不了怎么更新_sysconfig老版本下载-sysconfig稳定版(能看的版本)_5577安卓网...

sysconfig老版本下载分享给大家。sysconfig老版本具有非常稳定的特点，加载速度快，不会黑屏崩溃，提高了用户的体验！sysconfig是一个超级牛逼的播放器应用，它能给你带来你所有想看的视频，如果你是一个影视剧迷，一定不要错过了！【软件功能】 1、经典易用的播放器皮肤界面…

阅读更多...

网址的构成

网址的构成

一般来说我们访问一个远程的东东，依靠的就是网址。网址的构成是固定的，http://域名/项目名/包结构/.../文件名。其中，没有备案的域名，就是ip构成的。这里说的ip，指的是ipv4的地址，即由4个三位数字构成的地址，ipv6暂时不说。但是，ip地址也是分好多类的，比如网络ip地址，…

阅读更多...

最新文章