我有很多数据,我想通过拆分我的数据并拟合在多线程或多台机器上运行的多个估计器来并行化估计器拟合。
一些估计器为核外学习提供了 partial_fit API(例如 PassiveAggressiveClassifier
here )
是否可以让多个估计器部分拟合,然后将它们各自的拟合组合成一个估计器?
最佳答案
不使用标准 API。您可以对 coef_
和 intercept_
进行平均,这将产生一个有意义的估计量。你想在一个核心上还是在网络上并行化?您可能有更有效的选择,其中大部分都需要多做一些工作。
有 SGD 的并行实现,但这些可能只会为庞大的数据集付出代价。您的数据有多大(样本数、特征数、稀疏度)?
关于python - 是否可以在 sklearn 中组合多个部分拟合估计量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29546209/