我正在评估许多不同的算法,它们的工作是预测事件发生的概率。
我正在大型数据集上测试算法。我使用“均方根误差”来衡量它们的有效性,它是((误差总和)平方的平方根)。误差是预测概率(0 和 1 之间的浮点值)与实际结果(0.0 或 1.0)之间的差异。
所以我知道 RMSE,以及测试算法的样本数量。
问题是有时 RMSE 值彼此非常接近,我需要一种方法来确定它们之间的差异是否只是偶然,或者它是否代表了性能的实际差异。
理想情况下,对于给定的一对 RMSE 值,我想知道一个真的比另一个好的概率是多少,以便我可以使用这个概率作为显着性阈值。
最佳答案
MSE 是平均值,因此适用中心极限定理。因此,测试两个 MSE 是否相同与测试两个均值是否相等相同。与比较两种方法的标准测试相比,难点在于您的样本是相关的——两者都来自相同的事件。但是 MSE 的差异与差分平方误差的平均值相同(平均值是线性的)。这建议计算 one-sample t-test如下:
x
计算错误 e
用于程序 1 和 2。(e2^2-e1^2)
. mean/(sd/sqrt(n))
. |t|>1.96
,在 5% 的置信水平下拒绝相等. RMSE 是 MSE 的单调变换,因此该测试不应给出实质性不同的结果。但请注意不要假设 MRSE 是 RMSE。
一个更大的问题应该是过度拟合。确保使用未用于估计模型的数据计算所有 MSE 统计数据。
关于statistics - 确定两个误差值之间的差异是否显着,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2168891/