<分区>
我已经为简单的马尔可夫决策过程实现了值(value)迭代算法 Wikipedia在 Python 中。为了保留特定马尔可夫过程的结构(状态、 Action 、转换、奖励)并对其进行迭代,我使用了以下数据结构:
可用状态和 Action 的字典 状态:
SA = { '状态 A': {' Action 1', ' Action 2', ..}, ...}
转移概率字典:
T = {('state A', 'action 1'): {'state B': probability}, ...}
奖励字典:
R = {('state A', 'action 1'): {'state B': reward}, ...}
。
我的问题是:这是正确的方法吗?什么是最适合 MDP 的数据结构(在 Python 中)?