我尝试在许多资源中查找什么是 pi*,例如 this link 。但是,我找不到 pi* 是什么。 V* 与 V_pi* 相同吗?
最佳答案
π* 用于表示“最优策略”。 V* 和 Q* 是最优值函数。最优值(value)函数导致最优政策。
查看第 4.6 节 https://web.fe.up.pt/~eol/schaefer/diplom/ReinforcementLearning.htm
关于optimization - 如何描述贝尔曼方程的最优策略 (pi*)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40410384/