Delay-Aware Multi-Agent Reinforcement Learning代码分析

news/2024/11/24 20:45:39/

github.com,终于跑出来了我研究生第一个自己跑的python代码吧，虽然还是没有看懂是什么意思，但是代码能运行了，就不错了，説一下文章的几个小的bug。

1 在delay_aware.py中经验回放池中的obs维度改变了==》

replay_buffer = ReplayBuffer(config.buffer_length, maddpg.nagents,[obsp.shape[0] + delay_step*5 for obsp in env.observation_space],[acsp.shape[0] if isinstance(acsp, Box) else acsp.nfor acsp in env.action_space])

这里面我也改过maddpg中的观察维度。但是下面的代码会报错

2 把环境的观察维度obs改了

zero_agent_actions = [np.array([0.0, 0.0,0.0, 0.0,0.0]) for _ in range(maddpg.nagents)]

3 agent.py中的step函数，只有gpu的写法没有cpu的写法。

4 在创建环境中, 把

make_parallel_env(env_id, n_rollout_threads, seed, discrete_action)中的discrete_action去掉了，在这个方法中的所有discrete_action都去掉了。

parser.add_argument("--env_id", default='simple_tag', type=str, help="Name of environment")
parser.add_argument("--model_name", default='model1', type=str,help="Name of directory to store " +"model/training contents")

加上相应的参数即可

之前在运行代码时，我在配置OpenAI maddpg环境时，我在运行MPE环境中python bin/interactive.py --scenario simple.py，出现这个错误 File "D:\Programfiles\anaconda\envs\maddpg\lib\site-packages\gym\core.py", line 111, in render raise NotImplementedError ，感觉是环境安装有问题，我换自己的电脑就好使了，如果以后知道原因再説吧。

Delay-Aware Multi-Agent Reinforcement Learning代码分析

相关文章

骨传导蓝牙耳机哪个牌子好？最受欢迎的五款骨传导蓝牙耳机

2023年华为HCIE-Dacom认证题库（H12-891）

dacom蓝牙耳机怎么重置_无线蓝牙耳机常见八大故障解决办法

骨传导加动圈，这款Dacom耳机有何出众之处？开箱验证

CodeForces前六场定级赛赋分规则（2020.5修订）及各段位对应分数段

CCSP2021分赛

不规则图形数格子的方法_最强大脑第四季不规则数独规则介绍数独技巧口诀带图解析...

答题小程序排位赛pk开发功能解析