reinforcement-learning - 一步多 Action ，强化学习

标签 reinforcement-learning openai-gym ray rllib

我正在尝试编写一个自定义的 openAI Gym 环境，其中代理在每个步骤中执行 2 个 Action ，其中一个是离散 Action ，另一个是连续 Action 。我正在使用 Ray RLLib 并使用 SAC 算法，因为它支持离散和连续 Action 空间。我的问题是，有没有人知道如何让智能体每步采取两个 Action ，一个是连续的，另一个是离散的？

最佳答案

如果 Action 空间类似于 MultiDiscrete([10,10])，它在预测时可以采取 2 种不同的类型 Action (顺便说一下，值 10 可以改变)

关于reinforcement-learning - 一步多 Action ，强化学习，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/66651626/

上一篇：flutter - 如何在 Flutter 中为整个应用设置 letterSpacing？

下一篇：c - K&R c programming book 3.7 trim函数示例

c++ - 神经网络中的 Q 学习不是 'learning'

machine-learning - DQN 如何在奖励始终为 -1 的环境中工作

pytorch - net.zero_grad() 与 optim.zero_grad() pytorch

reinforcement-learning - 如何检查 OpenAI 健身房环境中可用的 Action ？

python - 如何从ray中的对象存储中清除对象？

ray - 在满足复杂条件时提前停止 ray.tune 实验？

algorithm - 如何将强化学习应用于连续 Action 空间？

reinforcement-learning - 在任意初始状态下启动 OpenAI 健身房

keras - 如何在 keras-rl/OpenAI GYM 中实现自定义环境？