python - 计算特征和目标变量之间的相关性

标签 python numpy dataframe correlation

计算我的特征和目标变量之间相关性的最佳解决方案是什么??我的数据框有 1000 行和 40 000 列...

例子:

df = pd.DataFrame([[1, 2, 4 ,6], [1, 3, 4, 7], [4, 6, 8, 12], [5, 3, 2 ,10]], columns=['Feature1', 'Feature2','Feature3','Target'])

这段代码工作正常,但在我的数据框上太长了……我只需要相关矩阵的最后一列:与目标的相关性(不是成对特征相关性)。

corr_matrix=df.corr()
corr_matrix["Target"].sort_values(ascending=False)

np.corcoeff() 函数适用于数组,但我们可以排除成对特征相关性吗?

最佳答案

您可以在每一列上使用 pandas corr:

df.drop("Target", axis=1).apply(lambda x: x.corr(df.Target))

关于python - 计算特征和目标变量之间的相关性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52497451/

相关文章:

python - 更改 QMenu 项目的背景颜色

python - 在 Numpy 中否定切片?

python - 接受标量或 numpy 数组作为参数的 python 函数

r - 清除 R 数据框中各列的重复项

Python 字典 : entry dependes on existing entry

python - 实时 subprocess.Popen 通过 stdout 和 PIPE

python - 使用递归找到大小为 k 的平衡代码

python - 恢复标准化操作时的精度问题

r - 使用subset()删除列和直接在R中的公式中删除变量有什么区别?

java - Spark DataFrame - .distinct() 不起作用?