reinforcement-learning - CartPole-v0 的得分恰好为 200

标签 reinforcement-learning openai-gym

关闭。这个问题需要debugging details .它目前不接受答案。












想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。

3年前关闭。




Improve this question




我正在研究 openai 健身房提供的 CartPole-v0。我注意到我的程序从来没有超过 200。在某些时候它停留在 200 并且不会更多。我想知道 openai 健身房是否有我可能遗漏的任何配置。有没有人发现这个问题?

最佳答案

CartPole-v0给予 1.0 的奖励对于每一步,您的代理都“活着”。

使用以下代码行注册环境:

register(
    id='CartPole-v0',
    entry_point='gym.envs.classic_control:CartPoleEnv',
    max_episode_steps=200,
    reward_threshold=195.0,
)

在当前版本的存储库中,可以找到 here .

那个max_episode_steps=200意味着剧集在 200 之后自动终止脚步。所以,你能得到的最高分是 200 .

关于reinforcement-learning - CartPole-v0 的得分恰好为 200,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50675555/

相关文章:

machine-learning - 强化学习中导致相同状态的多个 Action

python - 如何在 Google Colab 上创建和使用自定义 OpenAI Gym 环境?

python - '操作系统错误 : [WinError 126] The specified module could not be found' when using OpenAI Gym-Atari on Windows 10

python - rllib 使用自定义注册环境

python - 一段时间后,pyglet 窗口会因 Schedule_once 挂起

python - 如何让Python代理观察?

python - PyBrain 强化学习输入缓冲区不正确

benchmarking - OpenAI Gym 和 Gazebo 来测试机器人的 RL 算法?

reinforcement-learning - DQN:在将观察空间转换为 Box 环境后访问原始观察结果?

machine-learning - 使用越来越多的反馈更新 Beta 发行版的 alpha 和 beta 参数