我是机器学习新手,我正在尝试使用 Q-learning 来解决 MountainCar-v0 问题。我现在可以解决问题,但我仍然很困惑。
根据MountainCar-v0's Wiki ,即使汽车已经到达目的地,每走一步的奖励仍然是-1。不变奖励如何帮助智能体学习?如果每一步都给出相同的奖励,那么智能体如何判断这是一个好 Action 还是一个坏 Action ?
提前致谢!
最佳答案
目标是让汽车尽快到达目的地。如果智能体运行速度很快,即使奖励仍然为负,它仍然高于智能体在相对较慢的运行中获得的较低奖励。这个差异足以让智能体学习。此环境的奖励系统鼓励智能体尽快到达目标目的地,因为只有达到最终状态,它才会停止接收负奖励。
关于machine-learning - 不变奖励如何帮助训练?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50098096/