artificial-intelligence - 网格世界中策略迭代背后的直觉

标签 artificial-intelligence reinforcement-learning markov

我应该想出一个 MDP 代理,它使用策略迭代和值迭代进行分配,并将其性能与状态的效用值进行比较。

如果 MDP 智能体知道转换概率和奖励,它如何知道移动哪个 Action ?

据我了解,MDP 代理将执行策略迭代,并根据给定的策略计算它在达到终止状态时获得的奖励。该策略是从值迭代算法发展而来的。

有人可以提供一些关于策略迭代如何工作的直觉吗?

最佳答案

假设您已经了解什么是策略迭代和值迭代算法,代理只需通过为每个状态选择具有最高值的操作来构建新策略。

一个 Action 的值(value)是该 Action 所有可能的下一个状态到达下一个状态的概率 *(下一个状态的值 + 转换的奖励)的总和。

关于artificial-intelligence - 网格世界中策略迭代背后的直觉,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13114454/

相关文章:

machine-learning - 将人工智能、推荐或机器学习技术应用于搜索特征

r - 模拟马尔可夫链的概率数不正确

python - 如何在多列上实现隐马尔可夫模型?

php - 如何在最大的数据库中查找相似的消息

tensorflow - 如何使用 tpu 解决 tf.keras 中的 "Propagation of dynamic dimension failed"错误?

machine-learning - 交叉熵和遗传算法有什么区别?

Python强化学习——元组观察空间

reinforcement-learning - 如何在OpenAI的体育馆中注册自定义环境?

machine-learning - 使用 HIdden Markov 模型进行预测

machine-learning - 乒乓球机器人神经网络的建议