Openreview IClR2024审稿意见以及如何rebuttal

news/2024/12/22 20:18:45/

R1

  1. 为什么直接从其他剧集获取信息可以提高性能,尽管动态可能会有所不同。

  2. 请与其他一些数据增强基线进行比较。

R2 

问题:

  1. 批评者和价值差异d(s,a,s',a')似乎是在IM中共同学习的。为什么这是一个有意义的目标?
  2. 与其他带有类比推理模块的方法相比,该方法的表现如何?
  3. 该方法如何在其他任务上执行?例如,其他 Mujoco 任务,如 Walker2d、Hopper 和 Humanoid 或 Meta-world [4] 任务。

R3

弱点:

方法

我相信缺少对该方法的重要描述。 虽然很清楚如何使用相似性计算网络和差分推理网络,但我没有看到任何关于它们被训练的信息。

我也有疑问为什么会这样。 从本质上讲,为了使该方法起作用,我们需要差分推理网络和相似性计算网络来很好地泛化状态和动作。否则,人为地为批评者设定的目标将具有误导性,并可能损害学习成绩。鉴于我找不到有关这些网络如何训练的信息,我真的怀疑这些网络是否能够快速适应并产生有意义的目标。

实验

鉴于该方法如此简单,并且论文提出了如此大的要求,我希望在更多领域进行评估。例如,既然您已经在 Acrobot 和 Lunar Lander 中评估该方法,为什么不同时评估 Cart Pole 呢?此外,雅达利游戏已被用作DRL方法的标准基准。我强烈建议至少在其中一些中做实验。

实验细节

根本没有关于实验的细节。 至少,需要讨论如何调整超参数以确保公平的比较。 还缺少有关该方法的实现和网络架构的重要细节。

与其他试图提高DRL方法样品效率的方法的比较

由于这种方法的重点是提高DRL方法的采样效率,因此我还希望看到与其他尝试做同样事情的方法进行比较,以了解它的有效性。

问题:

次要:

  1. 错误的引用:在第 5 页的底部,He et al., 2020 不应该被引用为 Adam 优化器,这是由于 Kingma & Ba, 2014 的。

R4 

弱点:

1.这篇论文的中心假设感觉是合理的,实验似乎证实了这一点。但是没有理论证据。本文不足以拆解和验证IM方法的优点,因此建议在实验的消融研究中重点讨论。 2.本文强调对现有大多数RL算法的IM进行了广泛的增强,但相关工作中主流RL算法的最新描述是2018年的SAC。这有点夸大其词,缺乏与最新工作的比较,尤其是解决数据效率的非基于像素的方法。 3.本文介绍的IM会带来额外的计算和存储过载,是否可以进行相关的消融研究来消除这部分干扰。 4.本文强调了求解高维状态空间和大规模问题的优势,但实验部分选择的连续Mujoco任务和离散Gym任务并不能代表上述问题场景。同时,第 6 页的最后一段强调了无模型 RL,这与全文中描述的限制范围不一致。 5.本文的实验缺乏对方法依赖神经网络结构和超参数设置的描述。

问题:

1.本文在第3页的最后一段中强调,早期的工作可能导致“灾难性的学习失败”。这种说法的由来不明,本文也没有通过实验来证明IM解决这一问题的优势。 2.算法1的描述不清晰、不规范,缺乏相关的神经网络。直观地说,IM引入的网络似乎没有更新过程。 3.In 论文第8页的最后一段,对“钟摆”任务的实验结果的描述,直接归因于有限的状态空间,在没有类似实验或证据的情况下,这样的描述是不够的。

参考资料

CVPR 2021评审出炉!得分惨不忍睹,面对奇葩评审该如何反击? - 知乎 (zhihu.com)

Imagination Mechanism:网格信息传播提高强化学习中的数据效率 |打开评论 (openreview.net)

作为审稿人,你什么情况下会选择拒稿?_weak accept-CSDN博客 


http://www.ppmy.cn/news/1209977.html

相关文章

整治PPOCRLabel中cv2文件读取问题(更新中)

PPOCRLabel 使用PPOCRLabel对ocr预标注结果进行纠正由于PaddleOCR代码库十分混乱,路径经常乱掉pip和代码库的代码,经常报错,ocr也是使用paddleocr的pip包; 安装 pip install PPOCRLabel2.1.3启动 PPOCRLabel --lang ch修改记录 修改1: 报错&#x…

AIX5.3安装weblogic10.3

目录 1安装IBM JDK 1.6 2图形化准备 3安装weblogic 准备 4图形化界面安装 1安装IBM JDK 1.6 1.1检查操作系统 # oslevel 5.3.0.0 # bootinfo -y (显示AIX机器硬件是64位) 64 # bootinfo -K (显示AIX系统内核是64位) 64 因此,系统需要安装64位的jdk,…

YOLOv7改进:RefConv | 即插即用重参数化重聚焦卷积替代常规卷积,无额外推理成本下涨点明显

1.该文章属于YOLOV5/YOLOV7/YOLOV8改进专栏,包含大量的改进方式,主要以2023年的最新文章和2022年的文章提出改进方式。 2.提供更加详细的改进方法,如将注意力机制添加到网络的不同位置,便于做实验,也可以当做论文的创新点 3.涨点效果:RefConv,实现有效涨点! 论文地址 …

c# 将excel导入 sqlite

nuget 须要加载 EPPlus.Core ExcelDataReader ExcelDataReader.DataSet //需要引用的扩展 using ExcelDataReader; using ExcelPackage OfficeOpenXml.ExcelPackage; public static void CreateZhouPianChaTable(){string tbname "zhou_pian_cha1";//判断表是否存…

解决Scrapy爬虫多线程导致抓取错乱的问题

目录 一、概述 二、问题分析 三、解决方案 四、案例分析 五、总结 一、概述 Scrapy是一个流行的Python爬虫框架,可以轻松地抓取网页数据并对其进行解析。然而,在抓取过程中,如果使用多线程进行并发处理,可能会遇到数据抓取错…

PMCW体制雷达系列文章(1) – PMCW体制雷达综述

说明 相位调制连续波(Phase-modulated continuous wave, PMCW)雷达,或又被称为数字雷达,近年来开始被应用于汽车雷达领域。而且因其特有的一些优势(精度高、抗干扰能力强等)被认为是车载毫米波雷达的发展趋势之一(从目前占主导的调频连续波(Frequency-mo…

平面运动机器人的传感器外参标定

简述 对任意两个传感器进行外参标定可以采用手眼标定算法来完成,但是,传统手眼标定算法对于运动具有一定的要求,可以证明,至少需要两个以上轴角方向不同的旋转运动才可以正确估计出外参旋转,因此,如果使用…

2023年A股借壳上市研究报告

第一章 借壳上市概况 1.1 定义 借壳上市作为一种独特的资本市场操作手法,历来是企业拓展融资渠道和实现市场战略目标的重要途径。具体来说,借壳上市可分为狭义与广义两种模式。在狭义的定义下,借壳上市是指一家已上市的公司的控股母公司&am…