基于rl-games里面的PPO算法,config文件里面一般都要设置dt,个人理解是每个step的时间,大部分设置的是1/60即一秒60step;
故事来源:
之前在一台机器上训练跑的code,放到另外一台上面怎么都复现不了,当然因为种种原因之前也改变过一些setting,因为看到有的essay里面设置的频率比较小,把dt改大,发现之前训其他场景成功不了;
看到结果,一眼就觉得是task is too hard,当时没继续管了;
结果今天一复现最easy的结果都fail...
再仔细观察robot的动作,又觉得是urdf model问题;
全都一样了还是不行,ok,就差一个yaml文件了,才想起来之前dt改大了...
dt再次小了之后,不知道为啥感觉运动起来慢了一些
总结:
以后改了啥,起了什么作用,都要有个结果或者结论出来;
否则后面debug浪费的都是成倍的时间而已
后续:
把之前60hz训的代码改成120HZ去test的时候,动作也是巨丝滑无比,
后面再看如果直接用120HZ去训有什么效果