我正在处理非常大的数据集,大约有 120,000 行和 34 列。正如您可以想象的那样,当使用 R 包 randomForest 时,即使在功能强大的 Windows 服务器上,该程序也需要相当长的时间才能运行。
虽然我不是 randomForest 方面的专家,但我对 merge() 函数的正确使用有疑问。
当我在线研究这个问题时,我似乎得到了相互矛盾的答案。有人说只有在同一组数据上使用 randomForest 时才可以使用 merge() 。其他人说你可以只使用combine()。
我想要(希望,梦想)做的是将 120,000 行数据分解为 6 个数据帧,每个数据帧包含 20,000 行,并对 6 个数据帧中的每一个执行 randomForest。我希望我可以使用 merge() 函数将所有 6 个结果组合在一起。那可能吗?
对于此事的任何帮助将不胜感激。
最佳答案
几个小时似乎很长。您确定您正在优化的机器上运行吗?也许您可以在 Linux 和 AWS EC2 上进行实验。另请查看几周前发布的 ranger
http://arxiv.org/abs/1508.04409和
https://cran.r-project.org/web/packages/ranger/index.html
关于r - 将组合()与 R 包 randomForest 一起使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32669927/