python - Scikit-learn χ²(卡方)统计量和相应的列联表

标签 python numpy machine-learning statistics scikit-learn

在 scikit-learn 的卡方单变量特征选择函数的文档中 http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html , 它指出

This score can be used to select the n_features features with the highest values for the χ² (chi-square) statistic from X, which must contain booleans or frequencies (e.g., term counts in document classification), relative to the classes.

我很难理解相应的列联表是什么样的,尤其是在频率特征的情况下。

例如,考虑以下具有 bool 特征和目标的数据集:

import numpy as np

>>> X = np.random.randint(2, size=50).reshape(10, 5)
array([[1, 0, 0, 0, 1],
       [1, 1, 0, 1, 1],
       [1, 0, 0, 0, 0],
       [0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1],
       [1, 0, 0, 0, 1],
       [1, 0, 1, 1, 1],
       [0, 1, 1, 0, 0],
       [1, 0, 1, 1, 1],
       [1, 1, 1, 1, 0]])

>>> y = np.random.randint(2, size=10)
array([1, 0, 0, 0, 1, 1, 1, 1, 0, 1])

要构建关于第一个特征的列联表,我们可以这样做(请原谅我违反了 PEP8)

import scipy as sp

>>> contingency_table = sp.sparse.coo_matrix(
...    (np.ones_like(y), (X[:, 0], y)), 
...    shape=(np.unique(X[:, 0]).shape[0], np.unique(y).shape[0])).A
array([[1, 2],
       [3, 4]])

现在我可以计算卡方统计量及其 p 值

>>> sp.stats.chi2_contingency(contingency_table)
(0.17857142857142855,
 0.67260381744151676,
 1,
 array([[ 1.2,  1.8],
       [ 2.8,  4.2]]))

这应该与 scikit-learn 的 chi2

一致
from sklearn.feature_selection import chi2

>>> chi2_, pval = chi2(X, y)
>>> chi2_[0], pval[0]
(0.023809523809523787, 0.87737055606414338)

...不。我误解了什么吗?

此外,列联表在频率的情况下是什么样子的?我以为会是这样的

contingency_table = sp.sparse.coo_matrix(
    (np.ones_like(y), (X[:, 0], y)), 
    shape=(X[:, 0].max()+1, np.unique(y).shape[0])).A

但是对应的预期频率表很可能会有几个零元素。

编辑:

为了进一步阐明,请考虑第一个特征 X[:, 0],即 gender 和目标 y,比如说, 惯用手

由此我们得到交叉表

                Right-handed    Left-handed (!right-handed)
Male            1               2
Female (!male)  3               4

并且我们可以通过设置预期频率使用卡方检验来评估两个比例之间差异的显着性

expfreq

sklearn.feature_selection.chi2 直接执行此操作而不求助于显式计算表,并使用等效于 scipy.stats.chisquare 的更高效过程获得分数.

在明确列举上面显示的表格后,我想在应用 scipy.stats.chi2_contingency 时验证它是否与 chi2 一致,但令我沮丧的是,它不是.我想问一下为什么不是。

最佳答案

考虑 X 的列 xsklearn.feature_selection.chi2 测试是否 y 值的频率,其中 x 为 1,与 y 的频率一致 全部人口。 (@larsman 的回答显示了如何使用 numpy 和 scipy 重现计算。)这与标准的 2x2 列联表不同 xy 的分析。在 2x2 列联表分析中,y 的频率 其中 x 为 0 也有助于测试。

假设我们形成xy 的列联表:

    | y=0  y=1
----+---------
x=0 |  a    b
x=1 |  c    d

令 n = a + b + c + d。这是样本数(即与 len(x) 和 len(y) 相同)。

令 nx = c + d。这是 x1 的出现次数。

令 py1 = (b + d)/n。这是总人口中 y 为 1 的部分。

sklearn.feature_selection.chi2 使用预期的对 [c, d] 执行 chi2 测试 值 [(1-py1)*nx, py1*nx]。这与标准列联表不同 2x2 表格的分析。

这是一个极端的例子。假设 xy 的 2x2 列联表是

    |  y=0  y=1
----+----------
x=0 |   8    8
x=1 |  20  188

sklearn 计算产生的 chi2 分数为 1.58,p 值为 0.208。

scipy.stats.chi2_contingency 的列联表分析得出 chi2 分数为 18.6,p 值为 1.60e-5。

关于python - Scikit-learn χ²(卡方)统计量和相应的列联表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21281328/

相关文章:

mac 上的 python-config ldflags

c++ - 多GPU模式下的tensorflow c++ SetDefaultDevice

python - 在 python 应用程序中集成 pytest(提供 fixture )

python - 使用 FUSE 在 python 中创建一个临时文件

python - 在 python 中执行此字符串模式替换的最快方法是什么?

python - 读取非分隔整数

python - 在条形图中绘制列表列表的两个 y 轴

python - 当数据不是周期性的时,如何绘制基于堆叠的条形图

python - 如何处理训练数据和测试数据之间的特征差异

machine-learning - 使用机器学习的当前状态解决下面提到的问题的最佳方法是什么?