我正在 Tesla K40
上的图像数据集上使用 Caffe
进行微调
。使用batch size=47
、solver_type=SGD
、base_lr=0.001
、lr_policy="step"
、momentum=0.9
、gamma=0.1
,训练损失
减少,测试准确度
从2%-
,这非常好。100
迭代中达到 50%
当使用其他优化器(例如 RMSPROP
、ADAM
和 ADADELTA
)时,训练损失
几乎保持不变在 1000
次迭代后,测试准确性
甚至没有提高。
对于 RMSPROP
,我已更改了上述的相应参数 here .
对于 ADAM
,我已更改了上述的相应参数 here
对于 ADADELTA
,我已更改了上述的相应参数 here
有人可以告诉我我做错了什么吗?
最佳答案
我看到了与 pir 类似的结果:当给定 SGD 使用的相同的 base_lr 时,Adam 会发散。当我将base_lr减少到原始值的1/100时,Adam突然收敛,并给出了很好的结果。
关于machine-learning - 使用 Caffe 没有提高 RMSprop、Adam、AdaDelta 测试精度,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32909986/