我想尝试用 Python 进行强化学习。 但我想创建一个具有我自己的状态和奖励的自定义环境。
可能我想在其中使用时间序列数据(不过与股票不同)。 我希望我的系统能够根据给定环境的时间来学习行为。
所以我首先会创建一个自定义环境, 有人可以帮我吗?
最佳答案
OpenAIgym环境注册流程可以在gym文档here中找到.
您还可以查看this示例自定义环境和 this stackoverflow 问题以获取更多信息。
Possibly I want to use Time-Series Data in this(nothing like Stocks though). I want my system to learn behaviors according to time, given an environment.
如果您希望代理学习 w.r.t.然后将时间步作为您状态中的变量包括在内。然后你的代理将能够区分时间步长不同的两个不同状态。
关于development-environment - OpenAI-Gym 中的自定义环境,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54800340/