machine-learning - 为什么 RMSProp 被视为 "leaky"?

标签 machine-learning artificial-intelligence reinforcement-learning gradient

decay_rate = 0.99 # decay factor for RMSProp leaky sum of grad^2

我对上面的评论措辞感到困惑,他们谈论了 RMSProp 优化器的“泄漏”平方和。到目前为止,我已经发现这一行是从 Andrej Karpathy 的 Deep Reinforcement Learning: Pong from Pixels 复制粘贴过来的。 ,RMSProp 是 unpublished optimizer proposed by Hinton in one of his Coursera Classes 。查看 link 2 中 RMSProp 的数学计算,很难弄清楚其中任何一个是如何“泄漏”的。

有人知道为什么 RMSProp 是这样描述的吗?

最佳答案

RMsprop 保持平方梯度的指数衰减平均值。 “泄漏”的措辞(无论多么不幸)是指先前的估计有多少“泄漏”到当前的估计,因为

E[g^2]_t := 0.99 E[g^2]_{t-1} + 0.01 g^2_t
            \_______________/   \________/
               "leaking"         new data 

关于machine-learning - 为什么 RMSProp 被视为 "leaky"?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44936983/

相关文章:

python - 将 scikit-learn ML 模型转换为用于微 Controller 的 C 语言

python - 机器学习中的预处理分类属性

python - 属性错误: type object 'sklearn.tree._criterion.array' has no attribute '__reduce_cython__'

java - 多层神经网络 - 训练过程

python - 使用神经网络将旧系统更新为 Q-learning

python - 如何使用旧数据框中的信息预测新Python数据框中的列值

machine-learning - 如何在训练统计分类器时智能采样参数空间

machine-learning - 教学神经网络异或函数

C++ 强化学习和智能指针

machine-learning - Q-Learning:你能倒退吗?