reinforcement-learning - CartPole-v0 的得分恰好为 200

标签 reinforcement-learning openai-gym

关闭。这个问题需要debugging details .它目前不接受答案。

想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。

3年前关闭。

Improve this question

我正在研究 openai 健身房提供的 CartPole-v0。我注意到我的程序从来没有超过 200。在某些时候它停留在 200 并且不会更多。我想知道 openai 健身房是否有我可能遗漏的任何配置。有没有人发现这个问题？

最佳答案

CartPole-v0给予 1.0 的奖励对于每一步，您的代理都“活着”。

使用以下代码行注册环境:

register(
    id='CartPole-v0',
    entry_point='gym.envs.classic_control:CartPoleEnv',
    max_episode_steps=200,
    reward_threshold=195.0,
)

在当前版本的存储库中，可以找到 here .

那个max_episode_steps=200意味着剧集在 200 之后自动终止脚步。所以，你能得到的最高分是 200 .

关于reinforcement-learning - CartPole-v0 的得分恰好为 200，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50675555/

上一篇：r - 合并不同范围的栅格，对R中重叠的单元格值求和

下一篇：r - 将 system() 输出流式传输到 Shiny 前端(连续)

python - 如何在 Google Colab 上创建和使用自定义 OpenAI Gym 环境？

python - '操作系统错误 : [WinError 126] The specified module could not be found' when using OpenAI Gym-Atari on Windows 10

python - rllib 使用自定义注册环境

python - 一段时间后，pyglet 窗口会因 Schedule_once 挂起

python - 如何让Python代理观察？

python - PyBrain 强化学习输入缓冲区不正确

benchmarking - OpenAI Gym 和 Gazebo 来测试机器人的 RL 算法？

reinforcement-learning - DQN:在将观察空间转换为 Box 环境后访问原始观察结果？

machine-learning - 使用越来越多的反馈更新 Beta 发行版的 alpha 和 beta 参数