machine-learning - Q 学习代理的学习率

标签 machine-learning reinforcement-learning q-learning

学习率如何影响收敛速度和收敛本身的问题。 如果学习率恒定,Q函数会收敛到最优还是学习率必须衰减才能保证收敛?

最佳答案

学习率表示解决问题所采取的步骤的大小。

这个数字不应该太大,因为它可能会在最小值周围持续振荡,并且它不应该太小,否则会花费很多时间达到最小值的时间和迭代次数。

之所以建议学习率衰减,是因为最初当我们处于解决方案空间中的完全随机点时,我们需要向解决方案迈出一大步,后来当我们接近解决方案时,我们进行小跳跃,从而进行小改进,最终达到最小值。

打个比方可以这样:在高尔夫游戏中,当球距离洞较远时,球员会非常用力地击球,以尽可能靠近球洞到洞里。后来,当他到达标记区域时,他选择了另一根棍子来获得准确的短射。

所以,如果不选择短杆,他也不是不能将球入洞,他可能会提前两到三次将球送入球洞。但如果他能够发挥最佳水平并使用适当的力量到达洞口,那将是最好的。学习率衰减也是如此。

关于machine-learning - Q 学习代理的学习率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33011825/

相关文章:

python - 为什么我的 Deep Q Net 和 Double Deep Q Net 不稳定?

matlab - 分类(LDA)函数的作用是什么?

matlab - 朴素分类器matlab

r - Xgboost h2o 在 WIndows 操作系统上出现错误?

tensorflow - DQN - Q-Loss 不收敛

python - 如何使用 Tensorflow Optimizer 而不重新计算强化学习程序中的激活,从而在每次迭代后返回控制?

python - 使用强化学习精炼边界框

python - 如何 reshape 包含图像数据的数组

python - 相对于重复函数的梯度

python - 为 TensorFlow reshape Gym 数组