machine-learning - 不变奖励如何帮助训练？

我是机器学习新手，我正在尝试使用 Q-learning 来解决 MountainCar-v0 问题。我现在可以解决问题，但我仍然很困惑。

根据MountainCar-v0's Wiki ，即使汽车已经到达目的地，每走一步的奖励仍然是-1。不变奖励如何帮助智能体学习？如果每一步都给出相同的奖励，那么智能体如何判断这是一个好 Action 还是一个坏 Action ？

提前致谢!

最佳答案

目标是让汽车尽快到达目的地。如果智能体运行速度很快，即使奖励仍然为负，它仍然高于智能体在相对较慢的运行中获得的较低奖励。这个差异足以让智能体学习。此环境的奖励系统鼓励智能体尽快到达目标目的地，因为只有达到最终状态，它才会停止接收负奖励。

关于machine-learning - 不变奖励如何帮助训练？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50098096/