machine-learning - 近端策略优化中的状态可以包含历史吗?

标签 machine-learning state reinforcement-learning

例如,时间步 t 的状态实际上可以由 t 和 t-1 的状态组成。

S_t = [s_t, s_t-1]

即近端策略优化是否已经包含状态历史,或者它可以隐含在状态中(或两者都不是)。

最佳答案

您可以连接您的观察结果。这对于RL来说是很常见的事情。通常在 atari 域中,最后四帧被连接到单个观察中。这使得智能体能够了解环境的变化。

默认情况下,基本 PPO 算法不会隐式跟踪状态历史记录。您可以通过添加循环层来实现这一点。

关于machine-learning - 近端策略优化中的状态可以包含历史吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47287033/

相关文章:

artificial-intelligence - Connect 4 应该使用什么机器学习算法?

machine-learning - 如何解决问题 "Testing accuracy reduce during iterations"?

apache-spark - 异常值检测算法spark mllib

machine-learning - 使用 keras 的 RNN 编码器解码器

delphi - 发生错误时在Delphi按钮组件中检测MouseUp

android - 管理来自另一个类的一个页面的状态

artificial-intelligence - RL 代理的严重损失

machine-learning - 如何比较数据挖掘分类器?

javascript - 在 React 中使用 Hooks 获取 JSON 的正确方法是什么?

machine-learning - Q 学习、时差、基于模型的强化学习