我正在尝试使用强化学习从给定的一组点中重复选择最接近原点的点,直到达到复杂(且不相关)的结束条件。 (这是我的主要问题的简化。)
包含可能点的二维数组被传递给强化学习算法,该算法会选择它认为最理想的点。
A [1, 10]
B [100, 0]
C [30, 30]
D [5, 7]
E [20, 50]
在这种情况下,D
将是真正的最佳选择。 (理想情况下,该算法应输出 3
,范围为 0
到 4
。)
但是,每当我训练算法时,它似乎并没有学习“概念”是什么,而只是选择,例如,C
通常是最好的选择,所以它应该总是选择那个。
import numpy as np
import rl.core as krl
class FindOriginEnv(krl.Env):
def observe(self):
return np.array([
[np.random.randint(100), np.random.randint(100)] for _ in range(5)
])
def step(self, action):
observation = self.observe()
done = np.random.rand() < 0.01 # eventually
reward = 1 if done else 0
return observation, reward, done, {}
# ...
我应该对我的算法进行哪些修改,以便它能够真正了解它试图实现的目标?
- 观察形状?
- 奖励功能?
- 行动选择?
Keras 代码将受到赞赏,但不是必需的;纯粹的算法解释也会非常有帮助。
最佳答案
根据您的描述勾勒出 MDP,存在一些问题:
您的观察函数似乎返回 5 个点,这意味着状态可以是 [0,99] 中 10 个整数的任意配置。这是 100^10 种可能的状态!你的状态空间需要小得多。正如所写,
observe
似乎正在生成可能的操作,而不是状态观察。您建议您从 [0,4] 中选择操作,其中每个操作本质上是代理可用的点数组的索引。 Action 空间的这种定义并没有给代理足够的信息来区分你所说的你想要的(较小的点更好),因为你只根据点的索引来行动!如果您想稍微调整公式以使其工作,您可以定义一个操作来选择每个维度在 [0,99] 中的 2D 点。这意味着您总共有 100^2 个可能的操作,但为了维持多项选择方面,您将限制代理根据其当前状态在给定步骤(5 个可能的操作)的子集中进行选择。
最后,在终止之前给予零奖励的奖励函数意味着您允许大量可能的最佳策略。本质上,任何终止的政策,无论事件持续多长时间,都是最优的!如果你想鼓励快速终止的策略,你应该在每一步用小的负奖励来惩罚代理。
关于machine-learning - 通过强化学习选择距离原点最近的点,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43382046/