python - 如何计算python中二进制变量之间的相关性？

两个二进制变量(x 和 y)为 Pandas Dataframe 中的多个日期形成两列。我想计算 x 和 y 之间的相关性分数，该分数可以量化 x=1 与 y=1 的相关性(x=0 与 y=0)。

什么相关性定义是合适的？

有内置函数吗？

|日 | _x | _y|

解释:这是两个分类。例如，x = 早餐吃鸡蛋(0 或 1)，y = 头痛(0 或 1)。并且有几天的 x 和 y 数据，我试图了解吃鸡蛋和头痛之间的“强相关性”。我知道 Pearson 的相关性在这里不适用。可以用什么？

最佳答案

在这种情况下使用的相关度量是 Pearson's rho。定义为两个二元变量，也称为皮尔逊相关系数。

rho = (n11*n00 -  n10*n01)/sqrt(n11.n10.n01.n00)
where 
n11 (n00) = number of rows with x=1(0) and y=1(0) etc.

关于python - 如何计算python中二进制变量之间的相关性？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52326174/

相关文章：

python - 按最接近字段的日期对 Mongodb 查询中的文档进行排序