machine-learning - 使用神经网络近似 Q 函数的奖励函数

标签 machine-learning tensorflow deep-learning reinforcement-learning q-learning

在 Q 学习中,如果我的 Q 函数由普通的前馈神经网络近似,我应该如何表示我的奖励函数?

我是否应该将其表示为“接近”、“非常接近”目标等离散值。我所关心的是,只要我已经转向 Q 函数的神经网络近似Q(s, a, θ) 并且不再使用查找表,我是否仍然有义务构建一个奖励表?

最佳答案

不存在“奖励表”这样的东西,您应该定义“奖励信号”,它是在给定时间戳的给定代理世界状态中产生的。该奖励应该是标量(数字)。一般来说,您可以考虑更复杂的奖励,但在 Q-learning 的典型设置中,奖励只是一个数字,因为算法的目标是找到一个策略,使其最大化预期的总和折扣奖励。显然你需要一个可以相加、相乘和最后比较的对象,并且有效地这样的对象只是数字(或者可以直接转换为数字)。好的,话虽如此,对于您的特定情况,如果您知道到目标的距离,您可以给予与距离成反比的奖励,甚至可以是 -distance1/distance(因为这将保证更好的缩放)。

关于machine-learning - 使用神经网络近似 Q 函数的奖励函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40137792/

相关文章:

python - 如何在 bert 模型上添加 Bi-LSTM 层?

machine-learning - 分类器可以拒绝对 x% 的测试数据进行分类? (以提高精度)

tensorflow 精简版 : Cannot convert between a TensorFlowLite buffer and a ByteBuffer

python - Sigmoid 越界

tensorflow - 如何在 TensorFlow 中选择二维张量的某些列?

tensorflow - TensorFlow 使用哪种排序算法?

tensorflow 错误: Using a `tf.Tensor` as a Python `bool` is not allowed

Tensorflow 和批量归一化,批量大小==1 => 输出全零

python - 无法安装 fancyimpute 以在 Jupyter 中使用

machine-learning - 梯度下降与随机梯度下降算法