我正在尝试编写一个自定义的 openAI Gym 环境,其中代理在每个步骤中执行 2 个 Action ,其中一个是离散 Action ,另一个是连续 Action 。我正在使用 Ray RLLib 并使用 SAC 算法,因为它支持离散和连续 Action 空间。 我的问题是,有没有人知道如何让智能体每步采取两个 Action ,一个是连续的,另一个是离散的?
最佳答案
如果 Action 空间类似于 MultiDiscrete([10,10])
,它在预测时可以采取 2 种不同的类型 Action (顺便说一下,值 10 可以改变)
关于reinforcement-learning - 一步多 Action ,强化学习,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66651626/