python - 强化学习 - 当游戏的输入只有像素时,我们如何决定对代理的奖励?

标签 python machine-learning artificial-intelligence reinforcement-learning openai-gym

我是 RL 新手,我做得最好的是 openAI 健身房中的 CartPole。在 cartPole 中,API 会根据所采取的操作自动提供奖励。当我拥有的只是像素数据并且没有“神奇功能”可以告诉特定操作的奖励时,我该如何决定奖励。

假设,我想在 GTA San Andreas 中制作一个自动驾驶机器人。我可以访问的输入是原始像素。我应该如何计算出采取特定行动的奖励?

最佳答案

您需要制定一个奖励来代表您想要的行为 - 这实际上不是一件小事。

如果屏幕的固定部分上有一些代表分数的数字,那么您可以使用老式的图像处理技术来读取这些数字并将其作为您的奖励函数。

如果屏幕的固定部分有固定比例和方向的小 map ,那么您可以使用减去角色到目标的距离作为奖励。

如果用户界面中没有固定元素可以用来代理奖励,那么你会遇到麻烦,除非你可以以某种方式访问​​控制台的内部变量来代理奖励(使用位置坐标)例如,您的 PC)。

关于python - 强化学习 - 当游戏的输入只有像素时,我们如何决定对代理的奖励?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48370121/

相关文章:

pandas - 逆标准化

artificial-intelligence - 禁忌搜索示例

regex - 计算机是否可以通过用户提供的示例将 "learn"转换为正则表达式?

Python - 十进制到整数低字节然后高字节

python - 如何生成随机的html文件

c# - 分类或关键字匹配自然语言字符串或短语

machine-learning - 随机梯度下降的成本函数是针对所有行计算还是仅针对迭代行计算?

java - 神经网络反向传播算法卡在异或训练模式上

python - 如何使用其中一列作为引用来匹配两列?

python - 如何将 JSON 数据转换为 Python 对象?