optimization - 如何描述贝尔曼方程的最优策略 (pi*)?

标签 optimization machine-learning reinforcement-learning

我尝试在许多资源中查找什么是 pi*,例如 this link 。但是,我找不到 pi* 是什么。 V* 与 V_pi* 相同吗?

Screenshot of the question

最佳答案

π* 用于表示“最优策略”。 V* 和 Q* 是最优值函数。最优值(value)函数导致最优政策。

查看第 4.6 节 https://web.fe.up.pt/~eol/schaefer/diplom/ReinforcementLearning.htm

关于optimization - 如何描述贝尔曼方程的最优策略 (pi*)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40410384/

相关文章:

python - 没有名为 'keras.legacy' 的模块

netlogo - 在 NetLogo 中实现强化学习(多代理模型中的学习)

machine-learning - 为什么我的神经网络 Q-learner 不学习井字棋

neural-network - 神经网络的网格世界表示

c# - 通过设置垃圾收集 bool 值来提高 150% 的速度?

java - 在Java中优化Collat​​z猜想

c - 如果大于 0,则将数字设为 1

python - python的快速二维 float 组(访问/写入)

swift - CoreML 图像检测

machine-learning - CNN学习停滞