在使用 openAI gym 作为学习环境时,我试图对强化学习有所了解。我通过阅读《使用 Python 进行强化学习实践》一书来做到这一点。在本书中,提供了一些代码。通常,代码不起作用,因为我必须先将其解包,如:openai gym env.P, AttributeError 'TimeLimit' object has no attribute 'P'
但是,我个人仍然对这种展开的原因感兴趣。为什么需要拆包?这到底是做什么的?为什么书中没有这样编码?它是 Giuliov 假设的过时软件吗?
提前致谢。
最佳答案
Open AI Gym 提供了许多不同的环境。他们每个人都有自己的一组参数和方法。然而,它们通常由一个名为 Env
的类(如真实 OOPL 上的接口(interface))包装。 .此类公开了任何环境中常用的最基本方法,例如 step
, reset
和 seed
.拥有这个“接口(interface)”类很棒,因为它允许您的代码与环境无关。如果您想在不同的环境中测试单个代理,它也会使事情变得更容易。
但是,如果您想访问特定环境的幕后动态,则使用 unwrapped
属性(property)。
关于python-3.x - 为什么要打开 openAI 健身房?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53836136/