[在此处输入图像描述][1]我正在努力弄清楚回归是否是我需要走的路线,以便解决我当前使用 Python 的挑战。这是我的场景:
- 我有一个 195 行 x 25 列的 Pandas Dataframe
- 所有数据(索引和标题除外)均为整数
- 我希望将某一特定列(B 列)与所有其他列进行比较
- 尝试确定任何列中是否存在影响 B 列的数字范围
- 我想用 Python 计算的结果示例类似于:当 D 列中的数据介于 10.20 - 16.4 之间时,B 列高于 3.5
我在线阅读的 Python 回归示例似乎生成了我不需要的图表和统计数据(或者可能是我解释错误)。我相信描述我所要求的内容的正确措辞是识别 Pandas 数据框中两列之间呈线性的特定值或一系列值。
有人能帮我指出正确的方向吗?
先谢谢大家了!
最佳答案
此时,您的目标听起来非常像探索性数据分析。您可能应该首先使用 pandas.Series.corr
计算目标列 B
与任何其他列
之间的相关性
(这实际上与二元回归相同),您可以列出
:
other_cols = [col for col in df1.columns if col !='B']
corr_B = [{other: df.loc[:, 'B'].corr(df.loc[:, other])} for other in other_col]
要了解特定范围,我建议查看:
为了可视化双变量和简单的多变量关系,我建议
以上内容应该可以帮助您理解二元关系。一旦您想要发展到多元关系,您可以返回到 scikit-learn或statsmodels恕我直言,python
中最适合此目的的软件包。希望这有助于您入门。
关于Python Pandas 回归,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34668181/