我知道定义:- 最优策略 (pi)* 对于所有 (pi) 满足 (pi)* >= (pi) 最优策略保证存在,但可能不是唯一的。 这两行是什么意思?
最佳答案
考虑一个代理,其目标是在视频游戏中获得分数。当代理学习玩游戏时,我们为其策略分配一个分数(例如游戏分数)。最佳策略将是获得最多分数的策略。例如,可能有多种方法来收集游戏中的所有分数,所有这些都是最优策略。
此外,正如我刚才提到的,这些策略并不是唯一的,在某些情况下可能有无数种方法可以最大化分数。
希望有帮助。
关于machine-learning - 什么是强化学习中的最优性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56535491/