machine-learning - 每个状态都是终端的强化学习

标签 machine-learning reinforcement-learning

我的问题与强化学习的实现无关，而是当每个状态都是终止状态时理解强化学习的概念。

我举个例子:一个机器人正在学习踢足球，只是学习射门。奖励是球射门后与球门柱之间的距离。状态是多个特征的数组， Action 是三维力的数组。

如果我们考虑情景强化学习，我觉得这种方法没有意义。事实上，机器人射击并给予奖励:每一集都是最后一集。将下一个状态传递给系统是没有意义的，因为算法不关心它来优化奖励 - 在这种情况下，我将使用 Actor-Critic 方法来处理连续状态和 Action 空间。有人可能会认为不同的监督学习方法(例如深度神经网络)可能效果更好。但我不确定，因为在这种情况下，算法将无法在输入远离训练集的情况下取得良好的结果。据我所知，强化学习能够更好地概括这种情况。

问题是:强化学习是解决这个问题的有效方法吗？在这种情况下如何管理终端状态？您知道文献中类似的例子吗？

最佳答案

如果我正确理解了您的问题，那么您所描述的问题在文献中被称为Contextual Bandits。在这种情况下，您有一组状态，并且代理在执行一个操作后会收到奖励。这个问题与强化学习密切相关，但它们有一些特殊的特征，可以用来设计特定的算法。

下图，摘自Arthur Juliani's post ，显示了多臂老虎机、上下文老虎机和强化学习问题之间的主要区别: