python - 大数据的sklearn线性回归

标签 python scikit-learn regression linear-regression

sklearn.LinearRegression 是否支持在线/增量学习?

我有100组数据,我正在尝试将它们全部实现。对于每个组,有超过 10000 个实例和约 10 个特征,因此如果我构造一个巨大的矩阵(10^6 x 10),它会导致 sklearn 出现内存错误。如果我每次都能用新组的批量样本更新回归器,那就太好了。

我找到了 this post相关,但公认的解决方案适用于使用单个新数据(仅一个实例)而不是批量样本的在线学习。

最佳答案

看看 linear_model.SGDRegressor,它使用随机梯度学习线性模型。

一般来说,sklearn 有很多模型都承认“partial_fit”,它们在 RAM 无法容纳的大中型数据集上都非常有用。

关于python - 大数据的sklearn线性回归,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22668489/

相关文章:

python - Scikit Learn 逻辑回归中预测的逆是正确的

测试集中新因子水平的回归——如何优雅地忽略错误

python - 为 tf.contrib.learn.Estimator 使用 input_fn 时设置 batch_size

python - 线性回归预测因输入类型而异

scikit-learn - 如何将 `sklearn.neighbors.KDTree` 对象转储到 hdf5?

regression - 使用 TensorFlow 进行多项式回归过度拟合

python - 如何对动态数据框进行OLS回归并估计斜率系数?

Python 词云图周围没有任何空格

Python:异常后重试会离开导致异常的行

python - psycopg2:如何知道 cur.rowcount 何时不表示行数?