statistics - 确定两个误差值之间的差异是否显着

标签 statistics probability measurement

我正在评估许多不同的算法,它们的工作是预测事件发生的概率。

我正在大型数据集上测试算法。我使用“均方根误差”来衡量它们的有效性,它是((误差总和)平方的平方根)。误差是预测概率(0 和 1 之间的浮点值)与实际结果(0.0 或 1.0)之间的差异。

所以我知道 RMSE,以及测试算法的样本数量。

问题是有时 RMSE 值彼此非常接近,我需要一种方法来确定它们之间的差异是否只是偶然,或者它是否代表了性能的实际差异。

理想情况下,对于给定的一对 RMSE 值,我想知道一个真的比另一个好的概率是多少,以便我可以使用这个概率作为显着性阈值。

最佳答案

MSE 是平均值,因此适用中心极限定理。因此,测试两个 MSE 是否相同与测试两个均值是否相等相同。与比较两种方法的标准测试相比,难点在于您的样本是相关的——两者都来自相同的事件。但是 MSE 的差异与差分平方误差的平均值相同(平均值是线性的)。这建议计算 one-sample t-test如下:

  • 每个x计算错误 e用于程序 1 和 2。
  • 计算平方误差的差异 (e2^2-e1^2) .
  • 计算差异的平均值。
  • 计算差异的标准偏差。
  • 将 t 统计量计算为 mean/(sd/sqrt(n)) .
  • 将您的 t 统计量与临界值进行比较或计算 p 值。例如,如果 |t|>1.96,在 5% 的置信水平下拒绝相等.

  • RMSE 是 MSE 的单调变换,因此该测试不应给出实质性不同的结果。但请注意不要假设 MRSE 是 RMSE。

    一个更大的问题应该是过度拟合。确保使用未用于估计模型的数据计算所有 MSE 统计数据。

    关于statistics - 确定两个误差值之间的差异是否显着,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2168891/

    相关文章:

    python - 在 Python 中计算 Pearson 相关性和显着性

    python - 编写一个随机数生成器,基于 0 到 1 之间的均匀分布数,从 Lévy 分布中采样?

    r - 单个连续随机变量位于区间 [55,100] 内的概率

    python - 如何仅在 png 图像中计算红色和绿色像素的估计联合概率分布?

    linux - 如何测量进程的单独 CPU 核心使用率?

    math - 进行信号频谱分析时的傅立叶变换 (FFT) 单位

    algorithm - 如何检测时间序列数据的显着变化/趋势?

    python - 在 python 中使用 VAR 模型进行条件预测

    java - 统计数据分析中的分散数据集

    c - STM32 上的电压测量