关闭。这个问题需要debugging details .它目前不接受答案。
想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。
3年前关闭。
Improve this question
我正在研究 openai 健身房提供的 CartPole-v0。我注意到我的程序从来没有超过 200。在某些时候它停留在 200 并且不会更多。我想知道 openai 健身房是否有我可能遗漏的任何配置。有没有人发现这个问题?
最佳答案
CartPole-v0
给予 1.0
的奖励对于每一步,您的代理都“活着”。
使用以下代码行注册环境:
register(
id='CartPole-v0',
entry_point='gym.envs.classic_control:CartPoleEnv',
max_episode_steps=200,
reward_threshold=195.0,
)
在当前版本的存储库中,可以找到 here .
那个
max_episode_steps=200
意味着剧集在 200
之后自动终止脚步。所以,你能得到的最高分是 200
.
关于reinforcement-learning - CartPole-v0 的得分恰好为 200,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50675555/