reinforcement-learning - Gym (openAI) 环境 Action 空间取决于实际状态

标签 reinforcement-learning openai-gym keras-rl

我正在使用 Gym 工具包来创建我自己的 env 和 keras-rl 在代理中使用我的 env。
问题是我的行动空间发生了变化,这取决于实际状态。
例如,我有 46 种可能的操作,但在特定状态下只有 7 种可用,而且我无法找到对其进行建模的方法。

我读过那个问题 open-ai-enviroment-with-changing-action-space-after-each-step

但这并没有解决我的问题。

在 Gym 文档中没有执行此操作的说明,只有他们的 Github 存储库(仍然打开)上的一个问题。
我无法理解代理(keras-rl、dqn 代理)如何选择一个 Action ,它是随机选择的吗?但从哪里来?

有人可以帮助我吗?想法?

最佳答案

我通过忽略任何无效操作并让探索机制防止它卡住来解决这个问题。快速而简单,但可能是更好的方法。

我认为更好的选择是以某种方式将选择该操作的概率设置为零,但我无法弄清楚如何做到这一点。

关于reinforcement-learning - Gym (openAI) 环境 Action 空间取决于实际状态,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52970928/

相关文章:

C++ 强化学习库

machine-learning - 强化学习中的Q,V(值函数)和奖励之间到底有什么区别?

machine-learning - 如何查看pytorch模型的参数?

machine-learning - 深度强化学习 (keras-rl) 早期停止

machine-learning - Tic Tac Toe 的 Q 学习算法

python - 如何同时使用Tensorflow tf.nn.Conv2d进行训练和预测?

python - 如何在 google colab 中创建实时 matplotlib.pyplot 图?

python - FrozenLake-v1 环境中的渲染问题

tensorflow2.0 - 如何修复 "cannot import name ' __version_ _' from ' tensorflow.keras'”?

python - 在 keras-rl 中定义 Action 值