machine-learning - 使用神经网络近似 Q 函数的奖励函数

标签 machine-learning tensorflow deep-learning reinforcement-learning q-learning

在 Q 学习中，如果我的 Q 函数由普通的前馈神经网络近似，我应该如何表示我的奖励函数？

我是否应该将其表示为“接近”、“非常接近”目标等离散值。我所关心的是，只要我已经转向 Q 函数的神经网络近似Q(s, a, θ) 并且不再使用查找表，我是否仍然有义务构建一个奖励表？

最佳答案

不存在“奖励表”这样的东西，您应该定义“奖励信号”，它是在给定时间戳的给定代理世界状态中产生的。该奖励应该是标量(数字)。一般来说，您可以考虑更复杂的奖励，但在 Q-learning 的典型设置中，奖励只是一个数字，因为算法的目标是找到一个策略，使其最大化预期的总和折扣奖励。显然你需要一个可以相加、相乘和最后比较的对象，并且有效地这样的对象只是数字(或者可以直接转换为数字)。好的，话虽如此，对于您的特定情况，如果您知道到目标的距离，您可以给予与距离成反比的奖励，甚至可以是 -distance 或 1/distance(因为这将保证更好的缩放)。

关于machine-learning - 使用神经网络近似 Q 函数的奖励函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40137792/

上一篇：machine-learning - 卷积核是预定义的还是 CNN 在训练期间定义它们

下一篇：machine-learning - 具有 2D Action 和 2D 状态的 Q 学习

相关文章：

python - 如何在 bert 模型上添加 Bi-LSTM 层？

machine-learning - 分类器可以拒绝对 x% 的测试数据进行分类？ (以提高精度)

tensorflow 精简版 : Cannot convert between a TensorFlowLite buffer and a ByteBuffer

python - Sigmoid 越界

tensorflow - 如何在 TensorFlow 中选择二维张量的某些列？

tensorflow - TensorFlow 使用哪种排序算法？

tensorflow 错误: Using a `tf.Tensor` as a Python `bool` is not allowed

Tensorflow 和批量归一化，批量大小==1 => 输出全零

python - 无法安装 fancyimpute 以在 Jupyter 中使用

machine-learning - 梯度下降与随机梯度下降算法