有人知道 Caffe 回归背后的理论吗?我知道我们有一个损失函数,但这有什么用呢?
我的意思是,对于带有损失层的 Softmax,我们有一个 Softmax 函数,并且我们应用交叉熵损失来确定我们的更新。我正在寻找的是我的欧几里得损失的“Softmax 函数”。有小费吗?我看过Caffe层的解释,但那里只是说误差平方和用作损失函数。
最佳答案
这与 Caffe 无关,这是一个一般的回归问题。
损失函数,通常采用 L(预测,真值) 的形式,是一个分配一个标量(数字)的函数,您尝试将其最小化以解决任务(即进行预测,重新组合真实值)。
一般来说,在回归中,您根据某个函数 f(x|theta) 进行预测,其中 theta 是函数的参数集,例如,这些可能是神经网络的权重集或线性模型的系数集。因此你的优化问题是
minimise_theta L(f(X|theta), truth)
例如,对于 L2 损失(欧几里德距离),您得到
minimise_theta SUM_i || f(x_i|theta) - truth_i ||^2
------------ -------
| |
v V
prediction true
for point value for
x_i point x_i
寻找最佳 theta 的方式取决于所使用的优化器,它可能会区分此函数以寻找最小值,您可能会使用一些元优化器(如遗传方法等)。
特别是对于Caffe和神经网络来说,f(x_i|theta)就是你的神经网络,它可以由多个模块(层、节点)组成,根据theta和x_i执行不同的操作。特别是 Softmax 没有任何参数,因此它不可训练,它只能标准化你的预测,但通常在 Softmax 下面确实有一些可训练的模块(例如线性层),它们根据上述优化问题进行调整。您搜索这样的参数,使您在训练集上的损失最小化。
关于math - 咖啡回归背后的理论,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42836738/