R1
-
为什么直接从其他剧集获取信息可以提高性能,尽管动态可能会有所不同。
-
请与其他一些数据增强基线进行比较。
R2
问题:
- 批评者和价值差异d(s,a,s',a')似乎是在IM中共同学习的。为什么这是一个有意义的目标?
- 与其他带有类比推理模块的方法相比,该方法的表现如何?
- 该方法如何在其他任务上执行?例如,其他 Mujoco 任务,如 Walker2d、Hopper 和 Humanoid 或 Meta-world [4] 任务。
R3
弱点:
方法
我相信缺少对该方法的重要描述。 虽然很清楚如何使用相似性计算网络和差分推理网络,但我没有看到任何关于它们被训练的信息。
我也有疑问为什么会这样。 从本质上讲,为了使该方法起作用,我们需要差分推理网络和相似性计算网络来很好地泛化状态和动作。否则,人为地为批评者设定的目标将具有误导性,并可能损害学习成绩。鉴于我找不到有关这些网络如何训练的信息,我真的怀疑这些网络是否能够快速适应并产生有意义的目标。
实验
域
鉴于该方法如此简单,并且论文提出了如此大的要求,我希望在更多领域进行评估。例如,既然您已经在 Acrobot 和 Lunar Lander 中评估该方法,为什么不同时评估 Cart Pole 呢?此外,雅达利游戏已被用作DRL方法的标准基准。我强烈建议至少在其中一些中做实验。
实验细节
根本没有关于实验的细节。 至少,需要讨论如何调整超参数以确保公平的比较。 还缺少有关该方法的实现和网络架构的重要细节。
与其他试图提高DRL方法样品效率的方法的比较
由于这种方法的重点是提高DRL方法的采样效率,因此我还希望看到与其他尝试做同样事情的方法进行比较,以了解它的有效性。
问题:
次要:
- 错误的引用:在第 5 页的底部,He et al., 2020 不应该被引用为 Adam 优化器,这是由于 Kingma & Ba, 2014 的。
R4
弱点:
1.这篇论文的中心假设感觉是合理的,实验似乎证实了这一点。但是没有理论证据。本文不足以拆解和验证IM方法的优点,因此建议在实验的消融研究中重点讨论。 2.本文强调对现有大多数RL算法的IM进行了广泛的增强,但相关工作中主流RL算法的最新描述是2018年的SAC。这有点夸大其词,缺乏与最新工作的比较,尤其是解决数据效率的非基于像素的方法。 3.本文介绍的IM会带来额外的计算和存储过载,是否可以进行相关的消融研究来消除这部分干扰。 4.本文强调了求解高维状态空间和大规模问题的优势,但实验部分选择的连续Mujoco任务和离散Gym任务并不能代表上述问题场景。同时,第 6 页的最后一段强调了无模型 RL,这与全文中描述的限制范围不一致。 5.本文的实验缺乏对方法依赖神经网络结构和超参数设置的描述。
问题:
1.本文在第3页的最后一段中强调,早期的工作可能导致“灾难性的学习失败”。这种说法的由来不明,本文也没有通过实验来证明IM解决这一问题的优势。 2.算法1的描述不清晰、不规范,缺乏相关的神经网络。直观地说,IM引入的网络似乎没有更新过程。 3.In 论文第8页的最后一段,对“钟摆”任务的实验结果的描述,直接归因于有限的状态空间,在没有类似实验或证据的情况下,这样的描述是不够的。
参考资料
CVPR 2021评审出炉!得分惨不忍睹,面对奇葩评审该如何反击? - 知乎 (zhihu.com)
Imagination Mechanism:网格信息传播提高强化学习中的数据效率 |打开评论 (openreview.net)
作为审稿人,你什么情况下会选择拒稿?_weak accept-CSDN博客