Python Pandas 回归

标签 python pandas machine-learning statistics regression

[在此处输入图像描述][1]我正在努力弄清楚回归是否是我需要走的路线,以便解决我当前使用 Python 的挑战。这是我的场景:

  • 我有一个 195 行 x 25 列的 Pandas Dataframe
  • 所有数据(索引和标题除外)均为整数
  • 我希望将某一特定列(B 列)与所有其他列进行比较
  • 尝试确定任何列中是否存在影响 B 列的数字范围
  • 我想用 Python 计算的结果示例类似于:当 D 列中的数据介于 10.20 - 16.4 之间时,B 列高于 3.5

我在线阅读的 Python 回归示例似乎生成了我不需要的图表和统计数据(或者可能是我解释错误)。我相信描述我所要求的内容的正确措辞是识别 Pandas 数据框中两列之间呈线性的特定值或一系列值。

有人能帮我指出正确的方向吗?

先谢谢大家了!

最佳答案

此时,您的目标听起来非常像探索性数据分析。您可能应该首先使用 pandas.Series.corr 计算目标列 B 与任何其他之间的相关性 (这实际上与二元回归相同),您可以列出:

other_cols = [col for col in df1.columns if col !='B']
corr_B = [{other: df.loc[:, 'B'].corr(df.loc[:, other])} for other in other_col]

要了解特定范围,我建议查看:

  • cutqcut 功能可根据您的喜好bin您的数据,并相应地绘制或关联子集:请参阅文档 herehere .

为了可视化双变量和简单的多变量关系,我建议

  • seaborn 包,因为它包含各种类型的绘图,旨在帮助您快速掌握变量之间的协变。例如,请参阅单变量和双变量分布的示例 here ,线性关系图 here和分类数据图 here .

以上内容应该可以帮助您理解二元关系。一旦您想要发展到多元关系,您可以返回到 scikit-learnstatsmodels恕我直言,python 中最适合此目的的软件包。希望这有助于您入门。

关于Python Pandas 回归,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34668181/

相关文章:

python - time.sleep() 和 BackGround Windows PyQt5

pandas - 在直方图的相对 bin 上叠加箱线图

python - 类型错误 : __array__() takes 1 positional argument but 2 were given

python - 基于 Pandas 列的分组和自动递增

python - Pandas:在字符串匹配后获取列中的下一个值

matlab - matlab中的多变量梯度下降

machine-learning - 需要有关实时视频上的对象检测和运动分类的建议

python - Python的sklearn(DecisionTreeClassifier,SVM)之间的区别?

python - 如何在 Python 中查找两个日期之间的星期一或任何其他工作日的数量?

Python 多处理循环