我正在使用 h2o
包来训练 GBM 来解决流失预测问题。
我只想知道是什么影响了保存在磁盘上的拟合模型的大小(通过 h2o.saveModel()
),但遗憾的是我无法在任何地方找到答案。
更具体地说,当我调整 GBM 以在 3 个相同长度的非重叠滚动窗口上找到最佳超参数(通过 h2o.grid()
)时,我获得的模型大小不可比较的(即 11mb、19mb 和 67mb)。超参数网格相同,训练集大小也相当。
当然,生成的优化超参数在 3 个区间内是不同的,但我看不出这如何会在模型大小上产生如此大的差异。
此外,当我根据这些超参数集训练实际模型时,我最终也会得到不同大小的模型。
感谢任何帮助! 谢谢
附言。抱歉,我无法共享任何数据集以使其可重现(由于隐私限制)
最佳答案
这是您期望的两件事:树的数量和深度。
但这也取决于你的数据。对于 GBM,可以根据数据将树剪短。
我要做的是导出 MOJO,然后按照以下文档中的描述将它们可视化,以获取有关实际生成内容的更多详细信息:
请注意,一般而言,60 MB 的范围似乎并不过分。
关于磁盘上的 R h2o 模型大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54255814/