r - 将组合()与 R 包 randomForest 一起使用

我正在处理非常大的数据集，大约有 120,000 行和 34 列。正如您可以想象的那样，当使用 R 包 randomForest 时，即使在功能强大的 Windows 服务器上，该程序也需要相当长的时间才能运行。

虽然我不是 randomForest 方面的专家，但我对 merge() 函数的正确使用有疑问。

当我在线研究这个问题时，我似乎得到了相互矛盾的答案。有人说只有在同一组数据上使用 randomForest 时才可以使用 merge() 。其他人说你可以只使用combine()。

我想要(希望，梦想)做的是将 120,000 行数据分解为 6 个数据帧，每个数据帧包含 20,000 行，并对 6 个数据帧中的每一个执行 randomForest。我希望我可以使用 merge() 函数将所有 6 个结果组合在一起。那可能吗？

对于此事的任何帮助将不胜感激。

最佳答案

几个小时似乎很长。您确定您正在优化的机器上运行吗？也许您可以在 Linux 和 AWS EC2 上进行实验。另请查看几周前发布的 ranger http://arxiv.org/abs/1508.04409和 https://cran.r-project.org/web/packages/ranger/index.html

关于r - 将组合()与 R 包 randomForest 一起使用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32669927/