machine-learning - 在 Q 学习中添加约束并在违反约束时分配奖励

我最近参加了 RL 类(class)，正在为具有连续状态和离散操作的电源管理应用程序编写 Q 学习 Controller 。我使用神经网络(Q 网络)来近似 Action 值并选择最大 Action 值。与任何控制系统一样，我对变量有一定的约束或界限，代理不能违反这些约束或界限。假设我的 Controller (代理)的 Action 是对电池进行放电或充电，则所得能量分别不能小于 0 或大于最大容量。

我想了解如何在操作选择或值近似例程中添加此类约束？我想到了两种方法

(1) 假设我正在运行 T 步的一集。在每一步中，我都会将当前状态输入到 Q 网络并选择最大 Action 值。采取此操作后，如果违反了我的约束，我可以分配巨大的负奖励，如果没有，我可以分配相关的奖励。最终，所有获得巨大负面奖励的行为(对应于不良行为)都将被避免，因此代理将在模型约束内运行。但是，如果我从优化的角度来看，永远不应该采取此类操作，因为它们不属于允许的区域。因此，理想情况下，我应该立即停止迭代，因为所有顺序操作都是 Not Acceptable 。这会造成数据的严重浪费。

(2) 其次，我将当前状态输入 Q 网络，选择与最大 Q 值对应的操作并检查约束。如果违反，我将采取与第二高 Q 值相对应的操作并重复，直到满足我的约束。但这会导致最优吗？

我认为这可能是训练涉及多个变量约束的自主控制系统时反复出现的问题。非常高兴收到您的反馈!

最佳答案

我想说选项(1)更可取，也是通常所做的。如果你真的不想执行某个 Action ，就不要执行并停止该事件(并给予巨大的负奖励)。关于选项(2)，我认为它不会导致最优性。

此外，Q-learning 是一种离策略算法。这意味着您可以使用其他一些采样器策略收集的样本来训练您的目标策略，这可以“更安全”并避免危险操作。然而，由于探索减少，这可能需要更多时间。

无论如何，这是强化学习中一个非常常见的问题。我建议你看看 Google 上的“成本敏感探索”，你会发现一些关于你的问题的有趣研究。

回复评论

我不太明白。您是否已有元组 (s,a,r,s') 的数据集？ (由任何代理/政策收集)。如果是这样，请不要停止该情节并只是学习(使用批处理算法，例如拟合 Q 迭代)。如果您必须在线收集数据，我建议您停止:您收集一个操作，通过 Q-learning 更新规则更新策略，然后继续这一事件。如果是这样，并且安全是您的首要考虑因素，那么只要发生不允许的事情就停止该事件。

如果你的真正目标是“很远的时间”(例如，你在一段时间后给予积极的奖励)，那么我看到的与“需要太多时间学习”相关的唯一问题就会出现，这对代理来说会很困难去体验它。然而，这是不可避免的:“安全/学习时间”与“探索/利用”之间总是存在妥协。

关于machine-learning - 在 Q 学习中添加约束并在违反约束时分配奖励，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36648996/

machine-learning - 在 Q 学习中添加约束并在违反约束时分配奖励

上一篇：推荐系统中的矩阵分解方法

下一篇：machine-learning - 为神经网络训练标记数据