r - 将组合()与 R 包 randomForest 一起使用

标签 r random-forest

我正在处理非常大的数据集,大约有 120,000 行和 34 列。正如您可以想象的那样,当使用 R 包 randomForest 时,即使在功能强大的 Windows 服务器上,该程序也需要相当长的时间才能运行。

虽然我不是 randomForest 方面的专家,但我对 merge() 函数的正确使用有疑问。

当我在线研究这个问题时,我似乎得到了相互矛盾的答案。有人说只有在同一组数据上使用 randomForest 时才可以使用 merge() 。其他人说你可以只使用combine()。

我想要(希望,梦想)做的是将 120,000 行数据分解为 6 ​​个数据帧,每个数据帧包含 20,000 行,并对 6 个数据帧中的每一个执行 randomForest。我希望我可以使用 merge() 函数将所有 6 个结果组合在一起。那可能吗?

对于此事的任何帮助将不胜感激。

最佳答案

几个小时似乎很长。您确定您正在优化的机器上运行吗?也许您可以在 Linux 和 AWS EC2 上进行实验。另请查看几周前发布的 ranger http://arxiv.org/abs/1508.04409https://cran.r-project.org/web/packages/ranger/index.html

另请检查parallel execution of random forest in R

关于r - 将组合()与 R 包 randomForest 一起使用,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32669927/

相关文章:

machine-learning - 神经网络 - 我应该删除所有派生/计算变量吗?

r - 使用neuralnet和ROCR包绘制神经网络曲线

r - 汇总data.table的所有列,而不必按名称引用

r - 插入符中的 rfeControl 函数是否会创建分层折叠?

python - 如何在没有交叉验证的情况下检查机器学习的准确性

machine-learning - 如何使用 scikit-learn RandomForestClassifier 实现稳定性?

r - R的randomForest包中缺失值错误

r - 在 R 中将列表列表转换为 data.frame

R - tmap 中的多个罗盘

r - 拆分数据集并将子集并行传递给函数,然后重新组合结果