machine-learning - 近端策略优化算法论文 - "KL"操作的定义?

标签 machine-learning reinforcement-learning

在有关近端策略优化算法的原始论文中

https://arxiv.org/pdf/1707.06347.pdf

在等式(4)中,作者使用了KL[]表示的运算。不幸的是,他们从未给出它的定义。

我的问题:

What does the KL[] operation stand for?

最佳答案

也许是KL divergence

KL散度用于比较两个概率分布之间的差异。

关于machine-learning - 近端策略优化算法论文 - "KL"操作的定义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59223646/

相关文章:

python - 在强化学习中标准化奖励以产生返回

tensorflow - 如何使用有状态 LSTM 和 batch_size > 1 布置训练数据

machine-learning - 关于 Dr. Hinton 的 MNIST 架构 (784*500*500*2000*10)

python - 具有多个元素的数组的真值不明确?

artificial-intelligence - Q-learning 和 SARSA 有什么区别?

artificial-intelligence - 如何在 Q-Learning 中使用 MinMax 树?

构建多类(相对于二元)分类器的算法

python - 从数据集中查找最难分类的支持向量

machine-learning - 井字游戏的神经网络

machine-learning - 值(value)迭代和策略迭代有什么区别?