虽然我可以设法获取示例并运行我自己的代码,但我更好奇 OpenAI Gym API 背后的真正语义/期望,特别是 Env.reset()
预计/需要何时重置?每集结尾处?还是只有在创建环境之后?
我宁愿认为每集之前都有意义,但我无法明确地阅读它!
最佳答案
您通常会在整个剧集后使用重置。因此,这可能是在您达到 mdp 中的最终状态之后,或者在您达到最大时间步数(由您设置)之后。我通常也会在训练开始时重置它。
因此,如果您处于起始状态“A”并且想要到达状态“Z”,则可以从“A”->“B”->“C”运行时间步...,然后当您到达终端状态“Z”时,您可以使用重置开始新的剧集,这会将您带回“A”。
for episode in range(iterations):
state = env.reset() // first state
for time_step in range(1000): //max amount of iterations
action = take_action(state)
state, reward, done, _ = env.step(action)
if done:
break // takes you to the next episode where the environment is reset
关于python - OpenAI健身房: when is reset required?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43854157/