我发现这真是一个令人头疼的问题。我有一个 python 2 笔记本,我用它在笔记本电脑和台式机上进行线性回归。在笔记本电脑上,sklearn
给出与 statsmodels 相同的结果。但是,在桌面上,statsmodels
给出了正确的结果,但 sklearn
给出了错误的结果。许多系数估计值比应有的值大了 8 个数量级,例如 304952680
与 -0.1271
。我再次保存笔记本,将其拉到笔记本电脑上,再次运行它,statsmodels
与 sklearn
线性回归结果相同。在桌面上重新连接并重新运行笔记本,statsmodels
再次正确,但 sklearn
LinearRegression
崩溃了再次。我很困惑。大家有什么想法吗?
以下是通过 nbviewer 链接的两个要点。它们很长,但可以比较例如单元格 59 和 62,变量 M12_CS_Months_Since_Last_Gift
。对于笔记本,statsmodels(单元格 59)与 sklearn(单元格 62)一致。对于桌面,他们不同意(请参阅桌面单元 62 中该变量的放大)。值得注意的一件事是:数据的特征是预测变量空间的大段对应于相同的观测值。也许这表明像建议的那样接近共线性?我会检查奇异值。欢迎提出其他建议或对该建议的后续行动。笔记本电脑是 64 位 Windows 8.1/statsmodels v.0.6.1/sklearn 0.17。桌面是Windows 10 64位,相同的statsmodels/sklearn模块版本。
笔记本:http://nbviewer.jupyter.org/gist/andersrmr/fb7378f3659b8dd48625
桌面:http://nbviewer.jupyter.org/gist/andersrmr/76e219ad14ea9cb92d9e
最佳答案
我看了你的笔记本。看来您的笔记本电脑和台式机型号在训练集上的性能几乎相同。这意味着这些大系数值在您的训练集上相互平衡。因此,笔记本电脑的结果并不完全错误,它只是违背了您可能想要附加的那种解释。它也有更大的过度拟合的风险(我没有看到你是否在测试集上得分,但你应该这样做)。基本上,如果您尝试将此拟合模型应用于违反训练集中观察到的共线性的示例,您将得到荒谬的预测。
为什么这种情况发生在一台机器上而不是另一台机器上?基本上,近共线预测变量组的系数在数值上不稳定,这意味着非常小的扰动可能会导致很大的差异。因此,用户通常看不到的底层数值库的差异可能会导致系数的显着变化。如果您从线性代数的角度思考,就会明白为什么会发生这种情况。如果两个预测变量完全共线,则它们的系数之和将是固定的,但只要另一个系数相互平衡,两个系数中的任何一个都可以无限制地增长。
解决办法是什么?如果这些变量之间始终存在真实、精确的依赖关系,您可能可以忽略该问题。然而,我不会,因为你永远不知道。否则,要么手动删除依赖列(这不会影响预测),使用自动变量选择或降维技术进行预处理,要么使用正则化回归方法(例如岭回归)。
注意:我的假设可能是错误的。最好通过奇异值验证共线性。如果您这样做,请发表评论。
第二个注意事项:最小二乘求解器会自动将相关列归零。如果您查看 scipy.linalg.lstsq,您可以传递一个截止参数 (cond
),以便将小的奇异值归零。此外,正如您所见,某些求解器比其他求解器更稳定。您始终可以使用更稳定的求解器。
关于scikit-learn - sklearn 与 statsmodels 和 sklearn 在不同机器上的不同结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35565895/