machine-learning - Adam 方法的学习率好吗?

标签 machine-learning neural-network deep-learning caffe

我正在训练我的方法。我得到的结果如下。这是一个好的学习率吗?如果不是,是高还是低? 这是我的结果

enter image description here

lr_policy: "step"
gamma: 0.1
stepsize: 10000
power: 0.75
# lr for unnormalized softmax
base_lr: 0.001
# high momentum
momentum: 0.99
# no gradient accumulation
iter_size: 1
max_iter: 100000
weight_decay: 0.0005
snapshot: 4000
snapshot_prefix: "snapshot/train"
type:"Adam"

这是引用

With low learning rates the improvements will be linear. With high learning rates they will start to look more exponential. Higher learning rates will decay the loss faster, but they get stuck at worse values of loss enter image description here

最佳答案

学习率看起来有点高。根据我的口味,曲线下降得太快并且很快就变平。如果我想获得额外的性能,我会尝试 0.0005 或 0.0001 作为基本学习率。如果您发现这不起作用,您可以在几个时期后退出。

您必须问自己的问题是您需要多少性能以及您距离实现所需性能有多近。我的意思是,您可能正在为特定目的训练神经网络。通常,您可以通过增加网络容量来获得更多性能,而不是微调学习率,即使不完美,也已经相当不错了。

关于machine-learning - Adam 方法的学习率好吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42966393/

相关文章:

python - Predict_classes() 的函数式 API Keras 替代解决方案

machine-learning - ANN 符号参数

python - 如何使用隔离林

machine-learning - 我的说话人识别神经网络运行不佳

python - 计算深度神经网络关于输入的偏导数

Python - Tensorflow - LSTM- ValueError : Error when checking model target: expected dense_16 to have shape (None, 100) 但得到了形状为 (16, 2) 的数组

python - 训练什么机器学习算法来使用特征权重作为决策树的输出?

python - tensorflow:您的输入数据不足

machine-learning - 在激活函数的反向传播过程中,为什么我们应该将 delta 乘以梯度而不是除法?

python - 如何为 1D CNN 格式化 1D 数组数据