例如,时间步 t 的状态实际上可以由 t 和 t-1 的状态组成。
S_t = [s_t, s_t-1]
即近端策略优化是否已经包含状态历史,或者它可以隐含在状态中(或两者都不是)。
最佳答案
您可以连接您的观察结果。这对于RL来说是很常见的事情。通常在 atari 域中,最后四帧被连接到单个观察中。这使得智能体能够了解环境的变化。
默认情况下,基本 PPO 算法不会隐式跟踪状态历史记录。您可以通过添加循环层来实现这一点。
关于machine-learning - 近端策略优化中的状态可以包含历史吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47287033/