machine-learning - 使用梯度下降实现 SARSA

标签 machine-learning reinforcement-learning sarsa

我已经使用表查找成功实现了 SARSA 算法(一步法和使用资格跟踪)。本质上,我有一个 q 值矩阵,其中每行对应一个状态,每列对应一个操作。

类似于:

[Q(s1,a1), Q(s1,a2), Q(s1,a3), Q(s1,a4)]
[Q(s2,a1), (Q(s2,a2), Q(s2a3), Q(s2, a2]
.
.
.
[Q(sn,a1), Q(sn,a2), Q(sn,a3), Q(sn,a4)]

在每个时间步长,都会从矩阵中选择一行,并根据策略,根据 SARSA 规则选择和更新操作。

我现在正在尝试使用梯度下降将其实现为神经网络。

我的第一个假设是创建一个两层网络,输入层具有与状态一样多的输入神经元,输出层具有与 Action 一样多的输出神经元。每个输入都将完全连接到每个输出。 (所以,事实上,它看起来就像上面的矩阵)

我的输入向量将是 1xn 行向量,其中 n 是输入神经元的数量。输入向量中的所有值都将为 0,除了与当前状态对应的索引为 1 之外。即:

[0 0 0 1 0 0]

将是处于状态 4 的代理的输入向量。

所以,这个过程会是这样的:

[0 0 0 1 0 0] X [ 4 7 9 3]
                [ 5 3 2 9]
                [ 3 5 6 9]
                [ 9 3 2 6]
                [ 2 5 7 8]
                [ 8 2 3 5]

我创建了一个随机的样本权重矩阵。

结果将是:

[9 3 2 6]

这意味着,如果选择了贪婪策略,则应选择 Action 1,并且第四个输入神经元和第一个输出神经元之间的连接应通过以下方式变得更强:

dw = dw_old + learning_rate*(reward + discount*network_output - dw_old)

(来自 SARSA 算法的方程)

然而 - 这个实现并不能说服我。根据我读到的内容,网络权重应该用于计算状态- Action 对的 Q 值,但我不确定它们应该代表这样的值。 (特别是因为我通常看到权重值仅包含在 0 到 1 之间。)

有什么建议吗?

最佳答案

摘要:您当前的方法是正确的,只是您不应将输出值限制在 0 到 1 之间。

This page有一个很好的解释,我将在这里总结一下。它没有专门讨论 SARSA,但我认为它所说的一切都应该翻译。

结果向量中的值确实应该代表神经网络对与每个状态相关的 Q 值的估计。因此,通常建议您不要将允许值的范围限制在 0 到 1 之间(因此只需将值乘以连接权重求和,而不是使用某种 sigmoid 激活函数)。

至于如何表示状态,一种选择是用代理拥有或理论上可能拥有的传感器来表示它们。例如,在下面的示例中,机器人具有三个“触角”传感器,每个传感器都可以处于三种条件之一。它们共同为机器人提供了它将获得的有关其所处状态的所有信息。

enter image description here

但是,如果您想为代理提供完美的信息,您可以想象它有一个传感器可以准确地告诉它所处的状态,如 this page 末尾附近所示。 。这将与您的网络当前设置的方式完全相同,一个输入代表每个状态。

关于machine-learning - 使用梯度下降实现 SARSA,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29978406/

相关文章:

python - Tensorflow 网格 LSTM RNN TypeError

machine-learning - 层次聚类

ios - 是否可以将训练有素的 sklearn.mixture.GMM 模型与适用于 iOS 的 C++ 一起使用?

machine-learning - 推广具有大状态和 Action 空间的基于模型的强化学习算法的策略

machine-learning - SARSA-Lambda 实现中各事件之间的资格跟踪重新初始化

machine-learning - 车杆的 SARSA 值近似值

matlab - MATLAB 中的特征选择方法?

c++ - 将所有路径上的数字相乘并得到具有最少零个数的数字

python - 对 Farama Gymnasium 的稳定基线 3 支持

artificial-intelligence - Q-learning 和 SARSA 有什么区别?