在 scikit-learn 的卡方单变量特征选择函数的文档中 http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.chi2.html , 它指出
This score can be used to select the n_features features with the highest values for the χ² (chi-square) statistic from X, which must contain booleans or frequencies (e.g., term counts in document classification), relative to the classes.
我很难理解相应的列联表是什么样的,尤其是在频率特征的情况下。
例如,考虑以下具有 bool 特征和目标的数据集:
import numpy as np
>>> X = np.random.randint(2, size=50).reshape(10, 5)
array([[1, 0, 0, 0, 1],
[1, 1, 0, 1, 1],
[1, 0, 0, 0, 0],
[0, 0, 0, 0, 0],
[0, 0, 0, 0, 1],
[1, 0, 0, 0, 1],
[1, 0, 1, 1, 1],
[0, 1, 1, 0, 0],
[1, 0, 1, 1, 1],
[1, 1, 1, 1, 0]])
>>> y = np.random.randint(2, size=10)
array([1, 0, 0, 0, 1, 1, 1, 1, 0, 1])
要构建关于第一个特征的列联表,我们可以这样做(请原谅我违反了 PEP8)
import scipy as sp
>>> contingency_table = sp.sparse.coo_matrix(
... (np.ones_like(y), (X[:, 0], y)),
... shape=(np.unique(X[:, 0]).shape[0], np.unique(y).shape[0])).A
array([[1, 2],
[3, 4]])
现在我可以计算卡方统计量及其 p 值
>>> sp.stats.chi2_contingency(contingency_table)
(0.17857142857142855,
0.67260381744151676,
1,
array([[ 1.2, 1.8],
[ 2.8, 4.2]]))
这应该与 scikit-learn 的 chi2
from sklearn.feature_selection import chi2
>>> chi2_, pval = chi2(X, y)
>>> chi2_[0], pval[0]
(0.023809523809523787, 0.87737055606414338)
...不。我误解了什么吗?
此外,列联表在频率的情况下是什么样子的?我以为会是这样的
contingency_table = sp.sparse.coo_matrix(
(np.ones_like(y), (X[:, 0], y)),
shape=(X[:, 0].max()+1, np.unique(y).shape[0])).A
但是对应的预期频率表很可能会有几个零元素。
编辑:
为了进一步阐明,请考虑第一个特征 X[:, 0]
,即 gender 和目标 y
,比如说, 惯用手。
由此我们得到交叉表
Right-handed Left-handed (!right-handed)
Male 1 2
Female (!male) 3 4
并且我们可以通过设置预期频率使用卡方检验来评估两个比例之间差异的显着性
sklearn.feature_selection.chi2
直接执行此操作而不求助于显式计算表,并使用等效于 scipy.stats.chisquare
的更高效过程获得分数.
在明确列举上面显示的表格后,我想在应用 scipy.stats.chi2_contingency
时验证它是否与 chi2
一致,但令我沮丧的是,它不是.我想问一下为什么不是。
最佳答案
考虑 X
的列 x
。 sklearn.feature_selection.chi2
测试是否
y
值的频率,其中 x
为 1,与 y
的频率一致
全部人口。 (@larsman 的回答显示了如何使用 numpy 和 scipy 重现计算。)这与标准的 2x2 列联表不同
x
和 y
的分析。在 2x2 列联表分析中,y
的频率
其中 x
为 0 也有助于测试。
假设我们形成x
和y
的列联表:
| y=0 y=1
----+---------
x=0 | a b
x=1 | c d
令 n = a + b + c + d。这是样本数(即与 len(x) 和 len(y) 相同)。
令 nx = c + d。这是 x
中 1
的出现次数。
令 py1 = (b + d)/n。这是总人口中 y 为 1 的部分。
sklearn.feature_selection.chi2
使用预期的对 [c, d] 执行 chi2 测试
值 [(1-py1)*nx, py1*nx]。这与标准列联表不同
2x2 表格的分析。
这是一个极端的例子。假设 x
和 y
的 2x2 列联表是
| y=0 y=1
----+----------
x=0 | 8 8
x=1 | 20 188
sklearn 计算产生的 chi2 分数为 1.58,p 值为 0.208。
scipy.stats.chi2_contingency
的列联表分析得出 chi2 分数为 18.6,p 值为 1.60e-5。
关于python - Scikit-learn χ²(卡方)统计量和相应的列联表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21281328/