两个二进制变量(x 和 y)为 Pandas Dataframe 中的多个日期形成两列。我想计算 x 和 y 之间的相关性分数,该分数可以量化 x=1 与 y=1 的相关性(x=0 与 y=0)。
|日 | _x | _y|
0 | 1 | 1
1 | 1 | 0
2 | 0 | 0
3 | 1 | 1
解释:这是两个分类。例如,x = 早餐吃鸡蛋(0 或 1),y = 头痛(0 或 1)。并且有几天的 x 和 y 数据,我试图了解吃鸡蛋和头痛之间的“强相关性”。我知道 Pearson 的相关性在这里不适用。可以用什么?
最佳答案
在这种情况下使用的相关度量是 Pearson's rho。定义为两个二元变量,也称为皮尔逊相关系数。
rho = (n11*n00 - n10*n01)/sqrt(n11.n10.n01.n00)
where
n11 (n00) = number of rows with x=1(0) and y=1(0) etc.
https://en.wikipedia.org/wiki/Phi_coefficient
关于python - 如何计算python中二进制变量之间的相关性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52326174/