machine-learning - 近端策略优化算法论文 - "KL"操作的定义？

在有关近端策略优化算法的原始论文中

https://arxiv.org/pdf/1707.06347.pdf

在等式(4)中，作者使用了KL[]表示的运算。不幸的是，他们从未给出它的定义。

我的问题:

What does the KL[] operation stand for?

最佳答案

也许是KL divergence ？

KL散度用于比较两个概率分布之间的差异。

关于machine-learning - 近端策略优化算法论文 - "KL"操作的定义？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59223646/

相关文章：

python - 在强化学习中标准化奖励以产生返回