python - 大数据的sklearn线性回归

sklearn.LinearRegression 是否支持在线/增量学习？

我有100组数据，我正在尝试将它们全部实现。对于每个组，有超过 10000 个实例和约 10 个特征，因此如果我构造一个巨大的矩阵(10^6 x 10)，它会导致 sklearn 出现内存错误。如果我每次都能用新组的批量样本更新回归器，那就太好了。

我找到了 this post相关，但公认的解决方案适用于使用单个新数据(仅一个实例)而不是批量样本的在线学习。

最佳答案

看看 linear_model.SGDRegressor，它使用随机梯度学习线性模型。

一般来说，sklearn 有很多模型都承认“partial_fit”，它们在 RAM 无法容纳的大中型数据集上都非常有用。

关于python - 大数据的sklearn线性回归，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22668489/

相关文章：

python - Scikit Learn 逻辑回归中预测的逆是正确的