python - 强化学习 - 当游戏的输入只有像素时，我们如何决定对代理的奖励？

我是 RL 新手，我做得最好的是 openAI 健身房中的 CartPole。在 cartPole 中，API 会根据所采取的操作自动提供奖励。当我拥有的只是像素数据并且没有“神奇功能”可以告诉特定操作的奖励时，我该如何决定奖励。

假设，我想在 GTA San Andreas 中制作一个自动驾驶机器人。我可以访问的输入是原始像素。我应该如何计算出采取特定行动的奖励？

最佳答案

您需要制定一个奖励来代表您想要的行为 - 这实际上不是一件小事。

如果屏幕的固定部分上有一些代表分数的数字，那么您可以使用老式的图像处理技术来读取这些数字并将其作为您的奖励函数。

如果屏幕的固定部分有固定比例和方向的小 map ，那么您可以使用减去角色到目标的距离作为奖励。

如果用户界面中没有固定元素可以用来代理奖励，那么你会遇到麻烦，除非你可以以某种方式访问控制台的内部变量来代理奖励(使用位置坐标)例如，您的 PC)。

关于python - 强化学习 - 当游戏的输入只有像素时，我们如何决定对代理的奖励？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48370121/

相关文章：

pandas - 逆标准化