machine-learning - 什么是强化学习中的最优性？

标签 machine-learning deep-learning reinforcement-learning

我知道定义:- 最优策略 (pi)* 对于所有 (pi) 满足 (pi)* >= (pi) 最优策略保证存在，但可能不是唯一的。这两行是什么意思？

最佳答案

考虑一个代理，其目标是在视频游戏中获得分数。当代理学习玩游戏时，我们为其策略分配一个分数(例如游戏分数)。最佳策略将是获得最多分数的策略。例如，可能有多种方法来收集游戏中的所有分数，所有这些都是最优策略。

此外，正如我刚才提到的，这些策略并不是唯一的，在某些情况下可能有无数种方法可以最大化分数。

希望有帮助。

关于machine-learning - 什么是强化学习中的最优性？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56535491/

上一篇：python - 关于Keras中基于官方文档的Embeddings的输入维度的问题

下一篇：tensorflow - 如何将 LSTMCell 权重格式从tensorflow更改为tf.keras

相关文章：

python - 提供了断言错误 : The algorithm only supports <class 'gym.spaces.box.Box' > as action spaces but Box(-1. 0, 1.0, (3,), float32)

python - 如何正确组合 tf.data.Dataset 和 tf.estimator.DNNRegressor

python - 使用 Surprise SVD++ 算法获取所有用户的预测

image-processing - 单张图像的最佳自动背景扣除算法是什么？

reinforcement-learning - 了解线性梯度下降 Sarsa(基于 Sutton 和 Barto)

python - 了解稳定基线模型中的total_timesteps参数

machine-learning - 如何表示神经网络的期望输出以便与实际输出进行比较？

machine-learning - 通过全名检测性别

keras - 如何训练多输出深度学习模型？

python - tf.metrics.accuracy 和手写准确度函数给出不同的结果

©2024 IT工具网联系我们