machine-learning - 机器学习中的动量是什么?

标签 machine-learning artificial-intelligence

关闭。这个问题需要更多focused .它目前不接受答案。












想改善这个问题吗?更新问题,使其仅关注一个问题 editing this post .

2年前关闭。




Improve this question




我是机器学习领域的新手,最近听说了这个词。我试图阅读互联网上的一些文章,但我仍然不明白其背后的想法。有人可以给我一些例子吗?

最佳答案

在反向传播期间,我们正在调整模型的权重以适应最新的训练结果。在表现良好的表面上,我们将简单地使用牛顿方法并毫无问题地收敛到最佳解决方案。然而,现实很少表现得很好,尤其是在随机初始化模型的初始困惑中。我们需要以比在下一次迭代中达到最优值的全面尝试更不随意的方式遍历空间(就像牛顿的方法那样)。

相反,我们对牛顿的方法进行了两项修正。第一个是learning rate :牛顿通过使用局部梯度来计算解决方案应该在哪里调整权重,并直接进入下一次迭代的新输入值。 Learning rate将其缩小很多,在指示的方向上采取更小的步骤。例如,0.1 的学习率表示只走计算距离的 10%。从这个新值,我们再次计算梯度,“偷偷摸摸”解决方案。这使我们有更好的机会在不同的表面上找到最佳值,而不是在各个方向上过冲或振荡超过它。
Momentum see here是保持一致方向的类似尝试。如果我们采取较小的步骤,在我们的空间中保持某种一致的方向也是有意义的。我们采用前一个航向向量和新计算的梯度向量的线性组合,并在该方向上进行调整。例如,如果我们有 0.90 的动量,我们将取前一个方向的 90% 加上新方向的 10%,并相应地调整权重——将该方向向量乘以学习率。

这有帮助吗?

关于machine-learning - 机器学习中的动量是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56482528/

相关文章:

artificial-intelligence - 如何评估聚类?

machine-learning - 如何使用Tensorflow训练简单模型

machine-learning - 比较文本文档含义的最佳方法?

testing - 如何检查人工神经网络的结果不是偶然的

python - 在 Python 中使用 Weka

artificial-intelligence - 关于决策树的问题

tensorflow - 网格的一部分作为 cnn 的输入

r - Recommenderlab 中的 LIST 产生错误

python - 如何处理图像分类的可变图像尺寸?

algorithm - 局部最大值问题是否会导致简单爬山算法陷入无限循环?