python - 如何计算python中二进制变量之间的相关性?

标签 python pandas statistics correlation

两个二进制变量(x 和 y)为 Pandas Dataframe 中的多个日期形成两列。我想计算 x 和 y 之间的相关性分数,该分数可以量化 x=1 与 y=1 的相关性(x=0 与 y=0)。

  • 什么相关性定义是合适的?
  • 有内置函数吗?

    |日 | _x | _y|
    0  | 1 | 1
    
    1  | 1 | 0
    
    2  | 0 | 0
    
    3  | 1 | 1
    

  • 解释:这是两个分类。例如,x = 早餐吃鸡蛋(0 或 1),y = 头痛(0 或 1)。并且有几天的 x 和 y 数据,我试图了解吃鸡蛋和头痛之间的“强相关性”。我知道 Pearson 的相关性在这里不适用。可以用什么?

    最佳答案

    在这种情况下使用的相关度量是 Pearson's rho。定义为两个二元变量,也称为皮尔逊相关系数。

    rho = (n11*n00 -  n10*n01)/sqrt(n11.n10.n01.n00)
    where 
    n11 (n00) = number of rows with x=1(0) and y=1(0) etc. 
    

    https://en.wikipedia.org/wiki/Phi_coefficient

    关于python - 如何计算python中二进制变量之间的相关性?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52326174/

    相关文章:

    python - 按最接近字段的日期对 Mongodb 查询中的文档进行排序

    python - 计算每组中 NaN 的数量

    python - 正交匹配追踪回归——我用错了吗?

    python - 在列表字典中搜索值

    python - 使用 wxPython 进行多处理没有响应

    python - 有没有办法在数组列表中找到唯一二进制数组的计数?

    python - 将元组列表转换为系列的最快方法

    python - 将数据扩展到新列进行分组

    python - 使用 scipy.stats.rv_continuous 的上限问题

    python - 如何计算 Pandas 数据框中的聚合汇总统计信息