machine-learning - 近端策略优化中的状态可以包含历史吗？

例如，时间步 t 的状态实际上可以由 t 和 t-1 的状态组成。

S_t = [s_t, s_t-1]

即近端策略优化是否已经包含状态历史，或者它可以隐含在状态中(或两者都不是)。

最佳答案

您可以连接您的观察结果。这对于RL来说是很常见的事情。通常在 atari 域中，最后四帧被连接到单个观察中。这使得智能体能够了解环境的变化。

默认情况下，基本 PPO 算法不会隐式跟踪状态历史记录。您可以通过添加循环层来实现这一点。

关于machine-learning - 近端策略优化中的状态可以包含历史吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47287033/