machine-learning - 什么是强化学习中的最优性?

标签 machine-learning deep-learning reinforcement-learning

我知道定义:- 最优策略 (pi)* 对于所有 (pi) 满足 (pi)* >= (pi) 最优策略保证存在,但可能不是唯一的。 这两行是什么意思?

最佳答案

考虑一个代理,其目标是在视频游戏中获得分数。当代理学习玩游戏时,我们为其策略分配一个分数(例如游戏分数)。最佳策略将是获得最多分数的策略。例如,可能有多种方法来收集游戏中的所有分数,所有这些都是最优策略。

此外,正如我刚才提到的,这些策略并不是唯一的,在某些情况下可能有无数种方法可以最大化分数。

希望有帮助。

关于machine-learning - 什么是强化学习中的最优性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56535491/

相关文章:

python - 提供了断言错误 : The algorithm only supports <class 'gym.spaces.box.Box' > as action spaces but Box(-1. 0, 1.0, (3,), float32)

python - 如何正确组合 tf.data.Dataset 和 tf.estimator.DNNRegressor

python - 使用 Surprise SVD++ 算法获取所有用户的预测

image-processing - 单张图像的最佳自动背景扣除算法是什么?

reinforcement-learning - 了解线性梯度下降 Sarsa(基于 Sutton 和 Barto)

python - 了解稳定基线模型中的total_timesteps参数

machine-learning - 如何表示神经网络的期望输出以便与实际输出进行比较?

machine-learning - 通过全名检测性别

keras - 如何训练多输出深度学习模型?

python - tf.metrics.accuracy 和手写准确度函数给出不同的结果