machine-learning - 小批量梯度只是在线梯度的总和吗?

标签 machine-learning neural-network backpropagation gradient-descent

我正在调整用于训练神经网络的代码,该网络进行在线训练以适用于小批量。权重 (de/dw) 的小批量梯度是否只是小批量中样本的梯度之和?或者,由于 sigmoid 输出函数,它是一些非线性函数吗?或者,它是总和,但除以某个数字以使其变小?

澄清:这个问题最好提出得更具体一些,问一下full-batch梯度和在线梯度之间的关系。因此,请参阅下一段:

我使用具有 sigmoid 激活函数的神经元对二维空间中的点进行分类。该架构为 2 x 10 x 10 x 1。有 2 个输出类别:一些点为 1,另一些点为 0。误差是(目标 - 输出)平方的一半。我的问题是,整个批处理梯度是否等于每个样本的梯度之和(在整个批处理中保持权重恒定)?

最佳答案

这在一定程度上取决于您的确切成本函数,但是当您使用在线模式时,这意味着您的函数在训练样本的意义上是可加的,因此最可能的方法(不知道确切的细节)是计算平均梯度。当然如果只是相加的话,结果是一样的,只是需要的学习率更小。

关于machine-learning - 小批量梯度只是在线梯度的总和吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24465389/

相关文章:

python - 为什么带有 1 个估计器的 adaboost 比简单的决策树更快?

c++ - CNN - 卷积层的反向传播

machine-learning - 具有多个输出神经元的神经网络中的反向传播

python - 使用逻辑回归的泰坦尼克号机器学习问题

machine-learning - Tensorflow:恢复 session 后重新打开队列时遇到问题

c++ - 解决类不平衡 : scaling contribution to loss and sgd

machine-learning - 绘制 Kohonen map - 了解可视化

neural-network - 如何独立于任何损失函数实现 Softmax 导数?

opencv - 训练 DLib 行人 HoG 检测器导致检测器错误

image-processing - 如何将图像输入到神经网络?