algorithm - 蒙特卡洛树搜索 : Opponent moves before MCTS tree border

标签 algorithm artificial-intelligence montecarlo

MCTS算法的步骤是:

  1. 选择
  2. 扩张
  3. 模拟
  4. 反向传播

我的问题涉及第三步,模拟。我们用一个新节点扩展了我们的决策树,并模拟了剩余的 Action ,直到游戏结束。这个模拟可以分为两部分:

  1. 轮到我们利用决策树中的策略
  2. 轮流为双方玩家设置随机移动(或使用特定于游戏的替代默认策略)

本出版物的图 1 显示了分隔两个阶段的 MCTS 树线:http://www.ru.is/faculty/yngvi/pdf/FinnssonB09a.pdf

我对第一部分感到困惑。为了模拟游戏,我们首先在第一个节点采用我们的树策略,然后对手移动,然后我们采用另一个树策略移动,依此类推,直到我们到达在算法的第 2 步中创建的节点。在我们到达树线之前,我们让对手在我们的树策略移动之间采取什么行动?一个随机移动的对手可能会阻止我们采取下一个树策略移动。还是我有其他的误解?

最佳答案

新节点位于决策树的底部。此决策树代表双方 玩家的移动。当您位于树中的一个节点时,树包含一个精确的移动序列,该移动序列以该位置结束。

其余的 Action 根据播放步骤进行模拟。

在实践中,计算机通常不需要一直模拟第一阶段的 Action 。相反,它只会缓存节点的位置,然后可以从该点重复开始播出模拟。

关于algorithm - 蒙特卡洛树搜索 : Opponent moves before MCTS tree border,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44728600/

相关文章:

algorithm - 比较五个不同的来源

algorithm - 哪种算法可以找到所有外出路径从另一个节点可达的最近节点

neural-network - 为什么我们应该使用 RNN 而不是 Markov 模型?

javascript - sigmoid 函数中的 e 等于什么?

algorithm - 从给定窗口生成离散随机子窗口

c++ - HSV (0 .. 255) 到 RGB (0 .. 255)

algorithm - 与神经网络中的几个输出节点相比,具有多个输出节点的优点或缺点是什么

objective-c - 用于密集型科学应用的 NSDecimalNumber?

graphics - 学生项目构想:并行计算

algorithm - 棋盘游戏中的蒙特卡洛树搜索 - 如何实现对手的 Action