neural-network - 深度 Q 学习适合解决 Cartpole 任务吗?

标签 neural-network reinforcement-learning q-learning openai-gym

我是强化学习新手。最近,我一直在尝试训练 Deep Q 网络来解决 OpenAI Gym 的 CartPole-v0 问题,其中解决意味着在 100 个连续的剧集中获得至少 195.0 的平均分数。

我使用的是 2 层神经网络,使用包含 100 万次经验的内存进行经验回放、epsilon 贪婪策略、RMSProp 优化器和 Huber 损失函数。

使用此设置,解决任务需要花费数千集 (> 30k)。学习有时也很不稳定。那么,深度 Q 网络在学习这样的任务时出现振荡并花费这么长时间是正常的吗?还有哪些其他替代方案(或对我的 DQN 的改进)可以提供更好的结果?

最佳答案

What other alternatives (or improvements on my DQN) can give better results?

根据我的经验,政策梯度与 cartpole 配合得很好。而且,它们相当容易实现(如果你仔细观察,策略梯度几乎看起来就像监督学习)。

一个好的起点:http://kvfrans.com/simple-algoritms-for-solving-cartpole/

关于neural-network - 深度 Q 学习适合解决 Cartpole 任务吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42758199/

相关文章:

machine-learning - keras 中的 model.predict_classes 与 model.predict_generator

python - 多智能体健身房环境中的随机智能体

python - 具有离散 Action 空间的软 Actor 评论家

python - Java 到 Python 代码不工作

python - 在 tensorflow 中微调神经网络

python - 哪种是进行图像标准化的正确方法?

python - Tensorflow 3 channel 颜色输入顺序

C++ 强化学习库

optimization - Q-学习值更新

r - 如何在R中实现q-learning?