optimization - 如何描述贝尔曼方程的最优策略 (pi*)？

标签 optimization machine-learning reinforcement-learning

我尝试在许多资源中查找什么是 pi*，例如 this link 。但是，我找不到 pi* 是什么。 V* 与 V_pi* 相同吗？

Screenshot of the question

最佳答案

π* 用于表示“最优策略”。 V* 和 Q* 是最优值函数。最优值(value)函数导致最优政策。

查看第 4.6 节 https://web.fe.up.pt/~eol/schaefer/diplom/ReinforcementLearning.htm

关于optimization - 如何描述贝尔曼方程的最优策略 (pi*)？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40410384/

上一篇：matlab - 错误: chol: input matrix must be positive definite

下一篇：python - 训练什么机器学习算法来使用特征权重作为决策树的输出？

相关文章：

python - 没有名为 'keras.legacy' 的模块

netlogo - 在 NetLogo 中实现强化学习(多代理模型中的学习)

machine-learning - 为什么我的神经网络 Q-learner 不学习井字棋

neural-network - 神经网络的网格世界表示

c# - 通过设置垃圾收集 bool 值来提高 150% 的速度？

java - 在Java中优化Collatz猜想

c - 如果大于 0，则将数字设为 1

python - python的快速二维 float 组(访问/写入)

swift - CoreML 图像检测

machine-learning - CNN学习停滞

©2024 IT工具网联系我们