python - 在 scikit-learn 中对多个随机森林模型进行平均

标签 python machine-learning scikit-learn random-forest

我有一个非常大的数据集,想在数据集的分区上训练几个随机森林模型,然后对这些模型进行平均以得到我的最终分类器。由于随机森林是一种集成方法,因此这是一种直观上合理的方法,但我不确定是否可以使用 scikit-learn 的随机森林分类器来实现。有任何想法吗?

我也愿意使用另一个包中的随机森林分类器,只是不确定在哪里寻找。

最佳答案

这是我能想到的:

  1. Pandas + Scikit: 您可以自定义自己的引导算法,从整个数据集中随机读取合理大小的样本,并在其上拟合 scikit 树(如果您在每个节点上随机化特征,那就完美了)。然后对每棵树进行腌制,最后将它们平均以得出随机森林。

  2. Graphlab + SFrame Turi有自己的大数据库(SFrame,类似于Pandas)和机器学习库(graphlab,非常类似于scikit)。环境非常优美。

  3. Blaze-Dask对于某些人来说可能有一点陡峭的学习曲线,但这将是一个有效的解决方案。

  4. 您也可以使用内存映射 numpy 选项,但它会比前三个选项更麻烦,而且我从未这样做过,所以我将把这个选项留在这里。

总而言之,我会选择选项 2。

关于python - 在 scikit-learn 中对多个随机森林模型进行平均,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47946942/

相关文章:

python 异步 upload_blob -- 类型错误 : object AccessToken can't be used in 'await' expression

Python Setter 和 Getter 命名

tensorflow - 基于过去和 future 值的每个时间序列步骤的二元分类

python - 无法修复 ValueError : Invalid parameter criterion for estimator for MultiOutputClassifier and GridSearchCV

python 3 : NameError: name 'sklearn' is not defined

python - "python setup.py test"与 "pytest {package}"之间有什么区别?

python - 如何检查 N 是否可以表示为特定列表中其他两个数字的总和

python - python 中的机器学习 scikit learn 问题

python-3.x - 使用分类数据集 : how to deal with different values (less number) in categorical data 进行 One-hot 编码

python - 仅在选择的列上使用 sklearn StandardScaler