h2o.ai Platt Scaling 校准

我注意到 h2o.ai 套件的一个相对较新的添加，能够执行补充 Platt Scaling 以改进输出概率的校准。 (请参阅 calibrate_model in h2o manual 。)不过，在线帮助文档中提供的指导很少。特别是我想知道是否启用了 Platt Scaling:

它如何影响模型的排行榜？也就是说，platt scaling 是在排名指标之后还是之前计算的？

它如何影响计算性能？

可以calibration_frame同validation_frame或不应该(在计算或理论的角度下)？

提前致谢

最佳答案

校准是模型完成后运行的后处理步骤。因此，它不会影响排行榜，也不会影响训练指标。它为评分框架增加了 2 列(带有校准的预测)。

This article提供如何构建校准框架的指导:

将数据集拆分为测试和训练

将训练集拆分为模型训练和校准。

它还说:
最重要的一步是创建一个单独的数据集来执行校准。

我认为校准框架应该仅用于校准，因此与验证框架不同。保守的答案是它们应该是分开的——当你使用验证框架进行提前停止或任何内部模型调整(例如 H2O GLM 中的 lambda 搜索)时，该验证框架成为“训练数据”的扩展，所以它有点像在那一点上是禁区。但是，您可以尝试两个版本并直接观察效果，然后再做决定。以下是文章中的一些额外指导:

“用于校准的数据量将取决于您可用的数据量。校准模型通常只适合少量参数(因此您不需要大量数据)。我的目标是10% 的训练数据，但至少有 50 个示例。”

关于h2o.ai Platt Scaling 校准，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46172137/

h2o.ai Platt Scaling 校准

上一篇：PHP 警告 : array_filter() expects parameter 2 to be a valid callback, 第二个数组成员不是有效方法

下一篇：Netbeans 8.1 IDE 在 Ubuntu 17.04 上意外退出