python - 函数逼近 : How is tile coding different from highly discretized state space?

标签 python machine-learning artificial-intelligence reinforcement-learning

我正在从连续状态空间的离散化过渡到函数逼近。我的 Action 和状态空间(3D)都是连续的。我的问题主要是由于混叠导致的错误，并且在长时间训练后几乎没有收敛。我也不知道如何为离散化选择正确的步长。

阅读 Sutton & Barto 帮助我理解了图 block 编码的强大功能，即具有由多个相互重叠的偏移图 block 描述的状态空间。给定一个连续的查询/状态，它由 N 个基函数描述，每个基函数对应于它所属的纵横交错的单个 block /方 block 。

1) 性能与寻求高度离散的状态空间有何不同？

2) 任何人都可以指点我在 python 中的 tile 编码的工作示例吗？我同时学习了太多东西，变得非常困惑! (Q学习、离散化困境、瓦片编码、函数逼近和处理问题本身)

对于 RL 中的连续问题，似乎没有任何详尽的 Python 编码教程。

最佳答案

正如 Simon 的评论所描述的那样，高度离散化的状态空间与使用分块编码的函数逼近器之间的一个关键区别在于分块编码能够将从一个状态学习到的值推广到其他类似状态(即分块可以重叠).在状态空间高度离散的情况下，您需要访问所有(而且可能很多)状态以获得值函数(或 Q 函数)的良好表示。

关于第二个问题，在这个link您可以找到由 Rich Sutton 及其实验室的其他成员编写的瓦片编码实现(使用 C、C++、Lisp 和 Python)。

关于python - 函数逼近 : How is tile coding different from highly discretized state space?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/37023460/

上一篇：python - Obspy.core 读取 "Unknown format for file %s"

下一篇：Python MapReduce Hadoop 流作业需要 3 个输入文件？

相关文章：

python - 如何验证 tkinter 中的按钮以便该函数只被调用一次？

python - 如何检查Pyspark Map中是否存在键或值

python - 需要在 Python 中 reshape /转置 Dataframe

python - 如何从 Sklearn 管道中提取特征重要性

r - 如何呈现包含时变协变量的生存数据并在 R 中拟合模型

algorithm - 寻找 ANN 的最佳学习规则

python - 读取文本文件中的行间内容

python - 为什么我的 Python RandomForestRegressor 不能准确预测训练集数据？

user-interface - 是否为机器人的神经网络大脑找到合适的编程语言？

math - 理解小波理论的先决条件