machine-learning - Q 学习代理的学习率

学习率如何影响收敛速度和收敛本身的问题。如果学习率恒定，Q函数会收敛到最优还是学习率必须衰减才能保证收敛？

最佳答案

学习率表示解决问题所采取的步骤的大小。

这个数字不应该太大，因为它可能会在最小值周围持续振荡，并且它不应该太小，否则会花费很多时间达到最小值的时间和迭代次数。

之所以建议学习率衰减，是因为最初当我们处于解决方案空间中的完全随机点时，我们需要向解决方案迈出一大步，后来当我们接近解决方案时，我们进行小跳跃，从而进行小改进，最终达到最小值。

打个比方可以这样:在高尔夫游戏中，当球距离洞较远时，球员会非常用力地击球，以尽可能靠近球洞到洞里。后来，当他到达标记区域时，他选择了另一根棍子来获得准确的短射。

所以，如果不选择短杆，他也不是不能将球入洞，他可能会提前两到三次将球送入球洞。但如果他能够发挥最佳水平并使用适当的力量到达洞口，那将是最好的。学习率衰减也是如此。

关于machine-learning - Q 学习代理的学习率，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33011825/