machine-learning - 了解多元线性回归

标签 machine-learning regression linear-regression

我正在做多元回归问题。我有以下数据集如下。

rank--discipline--yrs.since.phd--yrs.service--sex--salary
[  1           1             19           18    1  139750],......

我将工资作为因变量,其他变量作为自变量。完成数据预处理后,我运行了梯度下降、回归模型。我估计了所有独立特征的偏差(截距)和系数。 我想为实际值和回归线绘制散点图 对于我预测的假设。由于我们这里有多个功能,

我有以下问题。

  1. 绘制实际值(散点图)时,如何确定 x 轴值。意思是,我有值列表。例如,第一行 [1,1,19,18,1]=>139750 如何将 [1,1,19,18,1] 转换或映射到 x 轴?我需要以某种方式将 [1,1,19,18,1] 设为一个值,这样我就可以在图中标记 (x,y) 的点。

  2. 在绘制回归线时,特征值是多少,以便我可以计算假设值。? 现在的意思是,我有所有特征的截距和权重,但我没有特征值。我现在如何决定特征值?

我想计算点并使用 matplot 来完成工作。我知道外面有很多可用的工具,包括 matplotlib 来完成这项工作。但我想获得基本的了解。

谢谢。

最佳答案

我仍然不确定我是否完全理解您的问题,因此,如果某些内容不是您所期望的,请在下面评论,我们会解决它。

现在,

查询 1:在您的所有数据集中,您将有多个输入,并且无法在您的案例中查看目标变量 salary 在单个图表中,什么是通常的做法是使用 t-sne ( link ) 对数据应用降维概念,或者使用主成分分析 (PCA) 来降低数据的维度,并使输出成为两个或三个变量,然后将其绘制在屏幕上,我更喜欢的另一种技术是将 target 与每个变量分别绘制为 subplot ,原因是我们甚至没有办法理解我们如何看待三个以上维度的数据。

查询2:如果您不确定使用matplotlib,我建议使用seaborn.regplot(),但我们也可以在matplotlib中进行。假设您首先要使用的变量是“纪律”与“薪水”。

from sklearn.linear_model import LinearRegression
lm = LinearRegression()
X = df[['discipline']]
Y = df['salary']
lm.fit(X,Y)

运行此lm.coef_后将为您提供系数,而lm.intercept_将为您提供形成该变量的线性方程中的截距,然后您可以使用 matplotlib 轻松绘制两个变量和一条线之间的数据。

关于machine-learning - 了解多元线性回归,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54624705/

相关文章:

machine-learning - 识别分类中最弱的特征

python - 在 Keras 中训练多元回归模型时损失值非常大

python - 使用 Theano 进行线性回归 - 维度不匹配

python - 为什么我无法使用随机森林找到最低平均绝对误差?

r - 如何在 R(新更新)中对纵向温度序列执行分段/样条回归?

r - 如何使group_by和lm快速?

machine-learning - 在哪里可以找到数据对来练习实现线性回归?

python - 我们什么时候不需要激活函数?

machine-learning - KeyedVector 中的 Gensim Doc2Vec.infer_vector() 等效项

r - 如何调试线性模型和预测的 "factor has new levels"错误