h2o.ai Platt Scaling 校准

标签 h2o calibration

我注意到 h2o.ai 套件的一个相对较新的添加,能够执行补充 Platt Scaling 以改进输出概率的校准。 (请参阅 calibrate_model in h2o manual 。)不过,在线帮助文​​档中提供的指导很少。特别是我想知道是否启用了 Platt Scaling:

  • 它如何影响模型的排行榜?也就是说,platt scaling 是在排名指标之后还是之前计算的?
  • 它如何影响计算性能?
  • 可以calibration_framevalidation_frame或不应该(在计算或理论的角度下)?

  • 提前致谢

    最佳答案

    校准是模型完成后运行的后处理步骤。因此,它不会影响排行榜,也不会影响训练指标。它为评分框架增加了 2 列(带有校准的预测)。

    This article提供如何构建校准框架的指导:

  • 将数据集拆分为测试和训练
  • 将训练集拆分为模型训练和校准。

  • 它还说:
    最重要的一步是创建一个单独的数据集来执行校准。

    我认为校准框架应该仅用于校准,因此与验证框架不同。保守的答案是它们应该是分开的——当你使用验证框架进行提前停止或任何内部模型调整(例如 H2O GLM 中的 lambda 搜索)时,该验证框架成为“训练数据”的扩展,所以它有点像在那一点上是禁区。但是,您可以尝试两个版本并直接观察效果,​​然后再做决定。以下是文章中的一些额外指导:

    “用于校准的数据量将取决于您可用的数据量。校准模型通常只适合少量参数(因此您不需要大量数据)。我的目标是10% 的训练数据,但至少有 50 个示例。”

    关于h2o.ai Platt Scaling 校准,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46172137/

    相关文章:

    python - 每次运行 H2OXGBoostEstimator 时出错

    performance - 多节点上的h2o和hadoop上的h2o有什么区别?

    python - 分类特征编码作为 Scikit-Learn 的枚举

    linux - 用于调整/校准启发式算法属性的软件

    camera - 校准矩阵中的图像中心

    python - Scikit 使用 CalibratedClassifierCV 校准分类器的正确方法

    r - 运行 h2o.ensemble 时出错

    触摸屏校准

    camera - 标定相机给定角度的圆周运动