Openreview IClR2024审稿意见以及如何rebuttal

为什么直接从其他剧集获取信息可以提高性能，尽管动态可能会有所不同。
请与其他一些数据增强基线进行比较。

问题：

批评者和价值差异d（s，a，s'，a'）似乎是在IM中共同学习的。为什么这是一个有意义的目标？
与其他带有类比推理模块的方法相比，该方法的表现如何？
该方法如何在其他任务上执行？例如，其他 Mujoco 任务，如 Walker2d、Hopper 和 Humanoid 或 Meta-world [4] 任务。

弱点：

方法

我相信缺少对该方法的重要描述。虽然很清楚如何使用相似性计算网络和差分推理网络，但我没有看到任何关于它们被训练的信息。

我也有疑问为什么会这样。从本质上讲，为了使该方法起作用，我们需要差分推理网络和相似性计算网络来很好地泛化状态和动作。否则，人为地为批评者设定的目标将具有误导性，并可能损害学习成绩。鉴于我找不到有关这些网络如何训练的信息，我真的怀疑这些网络是否能够快速适应并产生有意义的目标。

实验

域

鉴于该方法如此简单，并且论文提出了如此大的要求，我希望在更多领域进行评估。例如，既然您已经在 Acrobot 和 Lunar Lander 中评估该方法，为什么不同时评估 Cart Pole 呢？此外，雅达利游戏已被用作DRL方法的标准基准。我强烈建议至少在其中一些中做实验。

实验细节

根本没有关于实验的细节。至少，需要讨论如何调整超参数以确保公平的比较。还缺少有关该方法的实现和网络架构的重要细节。

与其他试图提高DRL方法样品效率的方法的比较

由于这种方法的重点是提高DRL方法的采样效率，因此我还希望看到与其他尝试做同样事情的方法进行比较，以了解它的有效性。

问题：

次要：

错误的引用：在第 5 页的底部，He et al.， 2020 不应该被引用为 Adam 优化器，这是由于 Kingma & Ba， 2014 的。

弱点：

1.这篇论文的中心假设感觉是合理的，实验似乎证实了这一点。但是没有理论证据。本文不足以拆解和验证IM方法的优点，因此建议在实验的消融研究中重点讨论。 2.本文强调对现有大多数RL算法的IM进行了广泛的增强，但相关工作中主流RL算法的最新描述是2018年的SAC。这有点夸大其词，缺乏与最新工作的比较，尤其是解决数据效率的非基于像素的方法。 3.本文介绍的IM会带来额外的计算和存储过载，是否可以进行相关的消融研究来消除这部分干扰。 4.本文强调了求解高维状态空间和大规模问题的优势，但实验部分选择的连续Mujoco任务和离散Gym任务并不能代表上述问题场景。同时，第 6 页的最后一段强调了无模型 RL，这与全文中描述的限制范围不一致。 5.本文的实验缺乏对方法依赖神经网络结构和超参数设置的描述。

问题：

1.本文在第3页的最后一段中强调，早期的工作可能导致“灾难性的学习失败”。这种说法的由来不明，本文也没有通过实验来证明IM解决这一问题的优势。 2.算法1的描述不清晰、不规范，缺乏相关的神经网络。直观地说，IM引入的网络似乎没有更新过程。 3.In 论文第8页的最后一段，对“钟摆”任务的实验结果的描述，直接归因于有限的状态空间，在没有类似实验或证据的情况下，这样的描述是不够的。

参考资料

CVPR 2021评审出炉！得分惨不忍睹，面对奇葩评审该如何反击？ - 知乎 (zhihu.com)

Imagination Mechanism：网格信息传播提高强化学习中的数据效率 |打开评论 (openreview.net)

作为审稿人，你什么情况下会选择拒稿？_weak accept-CSDN博客