math - 咖啡回归背后的理论

标签 math machine-learning regression caffe

有人知道 Caffe 回归背后的理论吗?我知道我们有一个损失函数,但这有什么用呢?

我的意思是,对于带有损失层的 Softmax,我们有一个 Softmax 函数,并且我们应用交叉熵损失来确定我们的更新。我正在寻找的是我的欧几里得损失的“Softmax 函数”。有小费吗?我看过Caffe层的解释,但那里只是说误差平方和用作损失函数。

最佳答案

这与 Caffe 无关,这是一个一般的回归问题。

损失函数,通常采用 L(预测,真值) 的形式,是一个分配一个标量(数字)的函数,您尝试将其最小化以解决任务(即进行预测,重新组合真实值)。

一般来说,在回归中,您根据某个函数 f(x|theta) 进行预测,其中 theta 是函数的参数集,例如,这些可能是神经网络的权重集或线性模型的系数集。因此你的优化问题是

minimise_theta    L(f(X|theta), truth)

例如,对于 L2 损失(欧几里德距离),您得到

minimise_theta    SUM_i || f(x_i|theta) - truth_i ||^2
                           ------------   -------
                                |            |
                                v            V
                           prediction      true
                           for point      value for
                           x_i            point x_i

寻找最佳 theta 的方式取决于所使用的优化器,它可能会区分此函数以寻找最小值,您可能会使用一些元优化器(如遗传方法等)。

特别是对于Caffe和神经网络来说,f(x_i|theta)就是你的神经网络,它可以由多个模块(层、节点)组成,根据theta和x_i执行不同的操作。特别是 Softmax 没有任何参数,因此它不可训练,它只能标准化你的预测,但通常在 Softmax 下面确实有一些可训练的模块(例如线性层),它们根据上述优化问题进行调整。您搜索这样的参数,使您在训练集上的损失最小化。

关于math - 咖啡回归背后的理论,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42836738/

相关文章:

algorithm - 符号比较

python - 如何在执行 PCA 后绘制每个变量的主向量?

r - 如何识别 R 中预测模型错误分类的实例

machine-learning - 朴素贝叶斯假设如何降低分割的计算强度?

R:如何阅读诺模图来预测所需的变量

r - "response"用地球 (MARS) 和 R 中的插入符号进行预测

java - Java中计算的正确数据类型是什么

iphone - 如何计算等轴测图上两点之间的实际距离?

java - 使用 MTJ/Netlib( native )的缓慢矩阵乘法性能

python - 使用 numpy/python 从头开始​​进行多项式展开