python - 如何在Python中使用Z分数计算相关性？

我的 pandas 数据框中的数据类似于下表:

  Z(A) Z(B) Z(TARGET)
1  0.4 0.17   0.96
2  0.2 0.37   0.45
3  0.1 -0.4   1.1
...

那么，是否可以仅使用 z 分数(最好使用 pandas 库)来计算 A 和 B 与 TARGET 的相关性？

我知道pandas库在其DataFrame类中有方法corr，并且我在这里看到了其他关于使用该方法的问题。但这些问题中的数据是原始数据(即 A、B、TARGET)，而我只有这些数据的 z 分数(即 Z(A)、Z(B)、Z(TARGET))。我是否可以将 corr 函数也应用于我的 Z 表，还是需要计算 A 与 TARGET 和 B< 的相关性 与 TARGET 使用其他方法？

我知道这个问题更多的是关于数学而不是编程，所以，如果我把它发布在错误的地方，抱歉。但两者都有一定的关系。

最佳答案

这里不能使用 corr，至少不能单独使用。 Pearson 相关性可以通过以下公式从 z 分数获得 http://davidmlane.com/hyperstat/A51911.html 。我会编写一个函数来求和，然后使用 for 循环和 df.iloc[] 迭代数据帧。它可能会足够快，只是不太漂亮。

关于python - 如何在Python中使用Z分数计算相关性？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57550544/

上一篇：Python threading.Condition.notify_all() 不触发下一个线程

下一篇：python - 将tensorflow BERT检查点转换为pytorch时出错

相关文章：

statistics - 导出结果

python - 如何在 CFG 中定义 null 或 lambda？

python - 在 matplotlib 中将单位设置为 X 轴

python - 如何通过使用 Pandas 定义除法函数来获得结果？

python - 为什么 %config 行在 Python 3.7 中给出语法错误？

python - 如何从 Pandas 中的 DatetimeIndex 获取滚动窗口内的持续时间

python - 在 openshift 上启动 Celery

python - 在 python 中编码 : what type is the variable

python - 如何在 pandas DataFrame 中重复单元格

statistics - 使用具有标准偏差的 BigQuery 检测异常值