machine-learning - 不变奖励如何帮助训练?

标签 machine-learning neural-network artificial-intelligence reinforcement-learning q-learning

我是机器学习新手,我正在尝试使用 Q-learning 来解决 MountainCar-v0 问题。我现在可以解决问题,但我仍然很困惑。

根据MountainCar-v0's Wiki ,即使汽车已经到达目的地,每走一步的奖励仍然是-1。不变奖励如何帮助智能体学习?如果每一步都给出相同的奖励,那么智能体如何判断这是一个好 Action 还是一个坏 Action ?

提前致谢!

最佳答案

目标是让汽车尽快到达目的地。如果智能体运行速度很快,即使奖励仍然为负,它仍然高于智能体在相对较慢的运行中获得的较低奖励。这个差异足以让智能体学习。此环境的奖励系统鼓励智能体尽快到达目标目的地,因为只有达到最终状态,它才会停止接收负奖励。

关于machine-learning - 不变奖励如何帮助训练?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50098096/

相关文章:

tensorflow - 在 TensorFlow 中,如何查看批量归一化参数?

python - 使用 Conv3D 的 theano 实现的建议

graph - 如何在图形上绘制连接的网络节点?

python - 实现 NEAT python 以在每次预测后重新训练

javascript - 如何提高前馈神经网络的准确性?

machine-learning - run 在 openml 上代表什么?

machine-learning - Tensorflow 中的分数最大池化

neural-network - 在反向传播算法中更新权重

algorithm - 带a-b修剪和换位表的Minimax

algorithm - 构建反向语言词典