磁盘上的 R h2o 模型大小

标签 r h2o

我正在使用 h2o 包来训练 GBM 来解决流失预测问题。

我只想知道是什么影响了保存在磁盘上的拟合模型的大小(通过 h2o.saveModel()),但遗憾的是我无法在任何地方找到答案。

更具体地说,当我调整 GBM 以在 3 个相同长度的非重叠滚动窗口上找到最佳超参数(通过 h2o.grid())时,我获得的模型大小不可比较的(即 11mb、19mb 和 67mb)。超参数网格相同,训练集大小也相当。

当然,生成的优化超参数在 3 个区间内是不同的,但我看不出这如何会在模型大小上产生如此大的差异。

此外,当我根据这些超参数集训练实际模型时,我最终也会得到不同大小的模型。

感谢任何帮助! 谢谢

附言。抱歉,我无法共享任何数据集以使其可重现(由于隐私限制)

最佳答案

这是您期望的两件事:树的数量和深度。

但这也取决于你的数据。对于 GBM,可以根据数据将树剪短。

我要做的是导出 MOJO,然后按照以下文档中的描述将它们可视化,以获取有关实际生成内容的更多详细信息:

请注意,一般而言,60 MB 的范围似乎并不过分。

关于磁盘上的 R h2o 模型大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54255814/

相关文章:

r - 比较 R 中的两个日期

python - 预测类别或类别概率?

python - 获取one-hot编码的H2OFrame

r - 在 R 中的 H2O 中将两个随机森林模型中的树模型合并为一个随机森林模型

r - R 中的 H2O - 自动数据处理

r - 分成3个字符长度

r - 使用 Xptr 和 Function 调用 Rcpp 函数 - 只有 xptr case 有效

r - 从一个函数中向.GlobalEnv分配多个对象

r - 如何将覆盖其他标签的箭头发送到 geom_label_repel 的后面?

python - 在数据子集上运行但在原始数据上完美运行时出现 h2o 错误