python - OpenAI健身房: when is reset required?

标签 python machine-learning reinforcement-learning openai-gym

虽然我可以设法获取示例并运行我自己的代码，但我更好奇 OpenAI Gym API 背后的真正语义/期望，特别是 Env.reset()

预计/需要何时重置？每集结尾处？还是只有在创建环境之后？

我宁愿认为每集之前都有意义，但我无法明确地阅读它!

最佳答案

您通常会在整个剧集后使用重置。因此，这可能是在您达到 mdp 中的最终状态之后，或者在您达到最大时间步数(由您设置)之后。我通常也会在训练开始时重置它。

因此，如果您处于起始状态“A”并且想要到达状态“Z”，则可以从“A”->“B”->“C”运行时间步...，然后当您到达终端状态“Z”时，您可以使用重置开始新的剧集，这会将您带回“A”。

    for episode in range(iterations):
        state = env.reset() // first state
        for time_step in range(1000):  //max amount of iterations
            action = take_action(state)
            state, reward, done, _ = env.step(action)
            if done:
                break // takes you to the next episode where the environment is reset

关于python - OpenAI健身房: when is reset required?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43854157/

上一篇：python - 如何从 Skit-learn DecisionTreeClassifier 获取二叉树数组

下一篇：python - Keras:将 Seq 模型转换为功能 API

matlab - 倍频程线性回归(一个变量)的梯度下降

python - 强化学习中如何应对不同的状态空间大小？

tensorflow - 当某个 Action 不可执行时如何减少神经网络输出

algorithm - 具有线性函数逼近的 Q 学习

python - 在一个文件中编写整个 Flask 应用程序是一种不好的做法吗？

python - 如何在多个条件和 groupby 中使用 .loc

python - 在 TestCases 中的 setUp 或 setUpClass 中修补装饰器不起作用

python - Kubernetes CronJob 运行 Python 脚本

python - Sigmoid 函数预测导出到 DF 时会生成连续数和误差