python - 为什么 episode 在 200 个时间步之后完成(Gym 环境 MountainCar)？

当在 Python 中使用来自 OpenAI-gym 的 MountainCar-v0 环境时， done 的值将在 200 个时间步后为真。这是为什么？由于未达到目标状态，因此不应完成该剧集。

import gym
env = gym.make('MountainCar-v0')
env.reset()
for _ in range(300):
    env.render()
    res = env.step(env.action_space.sample())
    print(_)
    print(res[2])

我想运行 step 方法直到汽车到达标志，然后中断 for 循环。这可能吗？类似这样的东西:

n_episodes = 10
done = False
for i in range(n_episodes):
    env.reset()
    while done == False:
        env.render()
        state, reward, done, _ = env.step(env.action_space.sample())

最佳答案

即使您不使用 env.monitor，当前最新版本的健身房也会在 200 步内强制停止环境。为避免这种情况，请使用 env = gym.make("MountainCar-v0").env

关于python - 为什么 episode 在 200 个时间步之后完成(Gym 环境 MountainCar)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42787924/

上一篇：python - tensorflow 错误 : No Variables to optimize

下一篇：python - 按字符串长度对数据帧进行排序

相关文章：

python - 将多索引数据帧写入 csv 而不更改其格式

python - 无法导入 pyCharm 中使用 Anaconda 安装的文件 : Need to add anaconda to Python PATH?

python - 如何修复Python Neat Openai Retro中的配置错误

python - 在 Open AI Gym 中实现策略迭代方法

tensorflow - 如何提高机器学习性能——DQ学习模型

python - 使用极地立体投影在 cartopy 中放置纬度标签

python numpy 掩码意味着性能

python - 从迭代器获取唯一值的快速方法

python - 具有三个需要多对多字段的表的 Django 应用程序

python - 连续的 DDPG 似乎没有收敛于一个二维空间搜索问题 ("Hunt the Thimble")