如果我将一个常数乘以损失函数会发生什么?我想我会得到更大的梯度,对吗?是否等于拥有更大的学习率?
最佳答案
基本上 - 这取决于很多事情:
如果您使用带有更新规则的经典随机/批量/全批量学习,其中:
新权重 = 旧权重 - 学习率 * 梯度
那么由于乘法交换律 - 你的主张是正确的。
如果您使用任何具有自适应学习率的学习方法(例如
ADAM
或rmsprop
),那么情况会发生一些变化。那么,你的梯度仍然会受到乘法的影响,但学习率根本不会受到影响。这取决于成本函数的新值如何与学习算法配合。如果您使用的学习方法具有自适应梯度,但没有自适应学习率 - 通常学习率会受到与第 1 点相同的影响。(例如,在
动量
方法)。
关于machine-learning - 如果损失函数乘以一个常数会发生什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38428726/