machine-learning - 无函数逼近的梯度时差 Lambda

标签 machine-learning reinforcement-learning temporal-difference

在 GTD(λ) 的每种形式中,似乎都使用 θ 和一些权重向量 w 根据函数逼近来定义它。

我知道对梯度方法的需求广泛来自于线性函数逼近器的收敛特性,但我想利用 GTD 进行重要性采样。

是否可以在没有函数逼近的情况下利用 GTD?如果是这样,更新方程是如何形式化的?

最佳答案

我理解,当你说“没有函数近似”时,你的意思是用表格来表示值函数 V。在这种情况下,V 的表格表示也可以被视为函数逼近器。

例如,如果我们将近似值函数定义为:

latex equations

然后,使用表格表示,有与状态一样多的特征,并且给定状态 s 的特征向量对于除 s 之外的所有状态都为零(它等于 1),并且参数向量 theta 存储该值对于每个州。因此,GTD和其他算法一样,无需任何修改就可以以表格方式使用。

关于machine-learning - 无函数逼近的梯度时差 Lambda,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36956906/

相关文章:

machine-learning - 交叉熵和遗传算法有什么区别?

python - 训练两个特征而不是一个

python - 我卡住了所有 keras 层,但使用 fit_generator 时模型发生了变化

python - 如何让这段RL代码获得GPU支持?

reinforcement-learning - TD(0)学习中如何选择 Action

r - 随着时间的推移逐行比较 2 个数据帧的分析

machine-learning - 坚持理解 TD(0) 和 TD(λ) 更新使用之间的区别

python - 分类模型中的 random_state 参数

python-3.x - 线性回归决定系数背后的直觉