实际上这些是 3 个问题:
我应该使用哪种优化算法来优化多层感知器的权重,如果我知道的话......
1) 只有误差函数的值? (黑盒)
2) 渐变? (一阶导数)
3) 梯度和粗麻布? (二阶导数)
我听说 CMA-ES 对于 1) 应该工作得很好,BFGS 对于 2) 应该工作得很好,但我想知道是否有任何替代方案,但我不知道 3) 应该采用哪种算法。
最佳答案
好的,所以这并不能真正回答您最初提出的问题,但它确实为您在评论中提到的问题提供了解决方案。
处理连续 Action 空间等问题通常不会通过更改错误度量来解决,而是通过更改整个网络的架构来解决。这使您可以继续使用相同的信息丰富的错误信息,同时仍然解决您想要解决的问题。
此 question 的解决方案中讨论了可以实现此目的的一些可能的架构更改。 .在我看来,我建议使用一种改进的 Q 学习技术,其中状态和 Action 空间都由自组织映射表示,这在上述链接中提到的一篇论文中进行了讨论。
希望对您有所帮助。
关于algorithm - 我应该使用哪种优化算法来优化多层感知器的权重?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7216506/