我目前正在开发一个表示网络图(带有节点和链接)的自定义 Gym 环境,并且我正在努力确定我的环境的 observation_space
变量应该是什么样子。我不打算使用环境的图形表示(这意味着 render()
方法将仅使用终端)。
我在 openai gihub 页面上寻找答案,我发现了这个 issue 。但是,我仍然不明白我的 observation_space
变量应该是什么样子。
我的健身房环境目前看起来像 this 。
TL;博士:
- 当前状态实际上是代理所在的节点
- 当前状态是一个字符
- 构造函数中明确了可能状态的列表
此外,我计划使用 Q-learning 算法来利用该图:我应该离散化 observation_space
吗?我计划使用像 like this one 这样的 RL 算法.
我应该如何表示我的observation_space
?
提前致谢!
最佳答案
在 Gym 环境中,观察空间表示 step() 方法可以返回的所有可能的观察结果。我查看了您的环境代码,对我来说,您的观察空间似乎是图的节点列表。在这种情况下,您必须扩展gym.spaces.Space 类,因为默认的Gym 中没有“列表”空间。
关于python - 如何为我的自定义 openai 环境定义 Observation_space?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56448260/