r - 线性模型中删除截距后的显着值变化

标签 r regression linear-regression

我实现了带截距和不带截距的线性回归:

TotalReview ~ Number_of_files + LOC

通过拦截,我得到以下输出,其中 Number_of_files变量显着:

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)   
(Intercept)     -5.279e+02  1.114e+02  -4.740  0.00515 **
LOC              7.045e-04  2.260e-03   0.312  0.76778   
Number_of_files  1.929e+00  6.026e-01   3.202  0.02395 *

如果没有拦截,我会得到非常不同的输出和 LOC突然变得很重要:

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)  
Number_of_files -0.760434   0.433852  -1.753   0.1302  
LOC              0.008528   0.003302   2.582   0.0416 *

为什么我的变量的显着性从Number_of_files改变至LOC拦截删除后?

最佳答案

直观上,回归的作用是通过数据点云以“最佳可能的方式”拟合一条线。回归输出中的系数是这条线的斜率。如果斜率(系数)为零,则(根据回归逻辑)因变量 y 和自变量 x 之间没有关系,即系数将为微不足道。

当您决定从拟合线中删除截距时,线的斜率将发生变化,以尝试仍然拟合通过数据点云的最佳可能线。您所看到的正是这样的:LOCNumber_of_files 的系数发生了巨大变化。

在下图中,您可以看到只有一个自变量(例如,只有 LOC)的情况下的影响。如您所见,蓝线(无截距)的斜率比红线(有截距)的斜率陡得多。

enter image description here

最后一点,除非您有充分的理由为什么您的模型不应包含截距,否则您应该保留截距。

关于r - 线性模型中删除截距后的显着值变化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46583249/

相关文章:

machine-learning - 回归模型评估

matlab - 线性回归代码

r - 带有多个回归线的 ggplot 以显示随机效应

r - 如何通过 R 创建 GUI?

r - 用于删除 NA 值的模板化 Rcpp 函数

r - 使用具有大量固定效应的回归快速预测

r - 从逻辑回归得到 p(x) 后,找到 'x' 的概率

r - 如何在 R 树状图中正确着色边缘或绘制矩形?

r - ggplot2 中 geom_bar 图的边框颜色错误

python - Python 的批量梯度下降不收敛