neural-network - 深度 Q 学习适合解决 Cartpole 任务吗？

我是强化学习新手。最近，我一直在尝试训练 Deep Q 网络来解决 OpenAI Gym 的 CartPole-v0 问题，其中解决意味着在 100 个连续的剧集中获得至少 195.0 的平均分数。

我使用的是 2 层神经网络，使用包含 100 万次经验的内存进行经验回放、epsilon 贪婪策略、RMSProp 优化器和 Huber 损失函数。

使用此设置，解决任务需要花费数千集 (> 30k)。学习有时也很不稳定。那么，深度 Q 网络在学习这样的任务时出现振荡并花费这么长时间是正常的吗？还有哪些其他替代方案(或对我的 DQN 的改进)可以提供更好的结果？

最佳答案

What other alternatives (or improvements on my DQN) can give better results?

根据我的经验，政策梯度与 cartpole 配合得很好。而且，它们相当容易实现(如果你仔细观察，策略梯度几乎看起来就像监督学习)。

关于neural-network - 深度 Q 学习适合解决 Cartpole 任务吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42758199/