磁盘上的 R h2o 模型大小

标签 r h2o

我正在使用 h2o 包来训练 GBM 来解决流失预测问题。

我只想知道是什么影响了保存在磁盘上的拟合模型的大小(通过 h2o.saveModel())，但遗憾的是我无法在任何地方找到答案。

更具体地说，当我调整 GBM 以在 3 个相同长度的非重叠滚动窗口上找到最佳超参数(通过 h2o.grid())时，我获得的模型大小不可比较的(即 11mb、19mb 和 67mb)。超参数网格相同，训练集大小也相当。

当然，生成的优化超参数在 3 个区间内是不同的，但我看不出这如何会在模型大小上产生如此大的差异。

此外，当我根据这些超参数集训练实际模型时，我最终也会得到不同大小的模型。

感谢任何帮助! 谢谢

附言。抱歉，我无法共享任何数据集以使其可重现(由于隐私限制)

最佳答案

这是您期望的两件事:树的数量和深度。

但这也取决于你的数据。对于 GBM，可以根据数据将树剪短。

我要做的是导出 MOJO，然后按照以下文档中的描述将它们可视化，以获取有关实际生成内容的更多详细信息:

请注意，一般而言，60 MB 的范围似乎并不过分。

关于磁盘上的 R h2o 模型大小，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54255814/

相关文章：

r - 比较 R 中的两个日期