statistics - 确定两个误差值之间的差异是否显着

我正在评估许多不同的算法，它们的工作是预测事件发生的概率。

我正在大型数据集上测试算法。我使用“均方根误差”来衡量它们的有效性，它是((误差总和)平方的平方根)。误差是预测概率(0 和 1 之间的浮点值)与实际结果(0.0 或 1.0)之间的差异。

所以我知道 RMSE，以及测试算法的样本数量。

问题是有时 RMSE 值彼此非常接近，我需要一种方法来确定它们之间的差异是否只是偶然，或者它是否代表了性能的实际差异。

理想情况下，对于给定的一对 RMSE 值，我想知道一个真的比另一个好的概率是多少，以便我可以使用这个概率作为显着性阈值。

最佳答案

MSE 是平均值，因此适用中心极限定理。因此，测试两个 MSE 是否相同与测试两个均值是否相等相同。与比较两种方法的标准测试相比，难点在于您的样本是相关的——两者都来自相同的事件。但是 MSE 的差异与差分平方误差的平均值相同(平均值是线性的)。这建议计算 one-sample t-test如下:

每个x计算错误 e用于程序 1 和 2。

计算平方误差的差异 (e2^2-e1^2) .

计算差异的平均值。

计算差异的标准偏差。

将 t 统计量计算为 mean/(sd/sqrt(n)) .

将您的 t 统计量与临界值进行比较或计算 p 值。例如，如果 |t|>1.96，在 5% 的置信水平下拒绝相等.

RMSE 是 MSE 的单调变换，因此该测试不应给出实质性不同的结果。但请注意不要假设 MRSE 是 RMSE。

一个更大的问题应该是过度拟合。确保使用未用于估计模型的数据计算所有 MSE 统计数据。

关于statistics - 确定两个误差值之间的差异是否显着，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2168891/

statistics - 确定两个误差值之间的差异是否显着

上一篇：apache-flex - 将CharCode转换为Char？

下一篇：networking - 如何在家搭建开发环境？