在有关近端策略优化算法的原始论文中
在等式(4)中,作者使用了KL[]
表示的运算。不幸的是,他们从未给出它的定义。
我的问题:
What does the
KL[]
operation stand for?
最佳答案
也许是KL divergence ?
KL散度用于比较两个概率分布之间的差异。
关于machine-learning - 近端策略优化算法论文 - "KL"操作的定义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59223646/