我注意到 h2o.ai 套件的一个相对较新的添加,能够执行补充 Platt Scaling 以改进输出概率的校准。 (请参阅 calibrate_model
in h2o manual 。)不过,在线帮助文档中提供的指导很少。特别是我想知道是否启用了 Platt Scaling:
calibration_frame
同validation_frame
或不应该(在计算或理论的角度下)? 提前致谢
最佳答案
校准是模型完成后运行的后处理步骤。因此,它不会影响排行榜,也不会影响训练指标。它为评分框架增加了 2 列(带有校准的预测)。
This article提供如何构建校准框架的指导:
它还说:
最重要的一步是创建一个单独的数据集来执行校准。
我认为校准框架应该仅用于校准,因此与验证框架不同。保守的答案是它们应该是分开的——当你使用验证框架进行提前停止或任何内部模型调整(例如 H2O GLM 中的 lambda 搜索)时,该验证框架成为“训练数据”的扩展,所以它有点像在那一点上是禁区。但是,您可以尝试两个版本并直接观察效果,然后再做决定。以下是文章中的一些额外指导:
“用于校准的数据量将取决于您可用的数据量。校准模型通常只适合少量参数(因此您不需要大量数据)。我的目标是10% 的训练数据,但至少有 50 个示例。”
关于h2o.ai Platt Scaling 校准,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46172137/