我正在尝试使用强化学习来解决涉及大量同步操作的问题。例如,智能体将能够采取可导致单一 Action 的 Action ,如射击,或可导致多个 Action 的 Action ,如跳跃时射击、右转、空手道砍等。当所有可能的 Action 结合起来,我最终得到一个巨大的 Action 数组,比如 1 x 2000。所以我的 LSTM 网络输出数组将有那个大小。当然,我会使用字典来解码 Action 数组以应用 Action 。所以我的问题是,那个 Action 数组是不是太大了?这是处理同时 Action 的方法吗?还有其他方法吗?请随意链接您看到的任何具体示例。谢谢。
最佳答案
我也一直在尝试为我的问题做类似的事情。您可以查看以下论文:
关于reinforcement-learning - 如何处理强化学习中的同时 Action ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63330428/