math - 咖啡回归背后的理论

有人知道 Caffe 回归背后的理论吗？我知道我们有一个损失函数，但这有什么用呢？

我的意思是，对于带有损失层的 Softmax，我们有一个 Softmax 函数，并且我们应用交叉熵损失来确定我们的更新。我正在寻找的是我的欧几里得损失的“Softmax 函数”。有小费吗？我看过Caffe层的解释，但那里只是说误差平方和用作损失函数。

最佳答案

这与 Caffe 无关，这是一个一般的回归问题。

损失函数，通常采用 L(预测，真值) 的形式，是一个分配一个标量(数字)的函数，您尝试将其最小化以解决任务(即进行预测，重新组合真实值)。

一般来说，在回归中，您根据某个函数 f(x|theta) 进行预测，其中 theta 是函数的参数集，例如，这些可能是神经网络的权重集或线性模型的系数集。因此你的优化问题是

minimise_theta    L(f(X|theta), truth)

例如，对于 L2 损失(欧几里德距离)，您得到

minimise_theta    SUM_i || f(x_i|theta) - truth_i ||^2
                           ------------   -------
                                |            |
                                v            V
                           prediction      true
                           for point      value for
                           x_i            point x_i

寻找最佳 theta 的方式取决于所使用的优化器，它可能会区分此函数以寻找最小值，您可能会使用一些元优化器(如遗传方法等)。

特别是对于Caffe和神经网络来说，f(x_i|theta)就是你的神经网络，它可以由多个模块(层、节点)组成，根据theta和x_i执行不同的操作。特别是 Softmax 没有任何参数，因此它不可训练，它只能标准化你的预测，但通常在 Softmax 下面确实有一些可训练的模块(例如线性层)，它们根据上述优化问题进行调整。您搜索这样的参数，使您在训练集上的损失最小化。

关于math - 咖啡回归背后的理论，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42836738/

math - 咖啡回归背后的理论

上一篇：python-3.x - 计算神经网络的梯度

下一篇：machine-learning - 图像归一化