学习率如何影响收敛速度和收敛本身的问题。 如果学习率恒定,Q函数会收敛到最优还是学习率必须衰减才能保证收敛?
最佳答案
学习率表示解决问题所采取的步骤的大小。
这个数字不应该太大,因为它可能会在最小值周围持续振荡,并且它不应该太小,否则会花费很多时间达到最小值的时间和迭代次数。
之所以建议学习率衰减,是因为最初当我们处于解决方案空间中的完全随机点时,我们需要向解决方案迈出一大步,后来当我们接近解决方案时,我们进行小跳跃,从而进行小改进,最终达到最小值。
打个比方可以这样:在高尔夫游戏中,当球距离洞较远时,球员会非常用力地击球,以尽可能靠近球洞到洞里。后来,当他到达标记区域时,他选择了另一根棍子来获得准确的短射。
所以,如果不选择短杆,他也不是不能将球入洞,他可能会提前两到三次将球送入球洞。但如果他能够发挥最佳水平并使用适当的力量到达洞口,那将是最好的。学习率衰减也是如此。
关于machine-learning - Q 学习代理的学习率,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33011825/