artificial-intelligence - MonteCarloTreeSearch 是适合这个问题规模(大 Action /状态空间)的方法吗?

标签 artificial-intelligence reinforcement-learning monte-carlo-tree-search markov-decision-process

我正在研究 t=1,...,40 个周期的有限范围决策问题。在每个时间步 t 中,(唯一的)代理必须选择一个 Action a(t) ∈ A(t),而代理处于状态 s(t) ∈ S(t)。在状态 s(t) 中选择的 Action a(t) 会影响到后续状态 s(t+1) 的转换。所以存在有限时域马尔可夫决策问题。

在我的例子中,以下内容成立:A(t)=A 和 S(t)=S,而 A 的大小为 6 000 000,S 的大小为 10^8。此外,过渡函数是随机的。

由于我对蒙特卡洛树搜索 (MCTS) 理论相对较新,我问自己:MCTS 是否适合解决我的问题(特别是由于 A 和 S 的大尺寸以及随机转换函数?)

我已经阅读了很多关于 MCTS 的论文(例如 progressiv widening 和 double progressiv widening,听起来很有前途),但也许有人可以告诉我他将 MCTS 应用于类似问题的经验或解决这个问题的适当方法(具有较大的状态/ Action 空间和随机转换函数)。

最佳答案

每个状态有 600 万个随机 Action ,我认为任何类型的模拟都无法在不本质上永远运行的情况下真正区分这些 Action 。

但是 100 个 MM 状态并不多,您可以将所有状态的值存储在不到 1 GB 的内存中,并且值迭代或策略迭代之类的东西可以更快地以最佳方式解决这个问题。

关于artificial-intelligence - MonteCarloTreeSearch 是适合这个问题规模(大 Action /状态空间)的方法吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54106742/

相关文章:

machine-learning - 如何学习马尔可夫决策过程中的奖励函数

python - OPenAI Gym Retro 错误 : "AttributeError: module ' gym. utils.seeding' 没有属性 'hash_seed'“

java - 为什么java在人工智能领域应用不多

search - 魔方的启发式

reinforcement-learning - 简单来说,强化学习中的策略梯度算法中的目标网络是什么?举个例子?

artificial-intelligence - 蒙特卡罗树搜索改进

我的 MCTS Gomoku 播放器的 Java 堆空间问题

algorithm - 蒙特卡洛树搜索算法中的转置表对 UCT 分数的意外影响

opencv - opencv库中houghcircle函数中的dp参数究竟是如何工作的呢?

artificial-intelligence - 如何使 softmax 与策略梯度一起工作?