python - 由特征选择(即 chi2 方法)产生的 p 值的含义是什么？

标签 python classification scikit-learn feature-selection

<分区>

最近，我使用sklearn(一个python机器学习库)做了一个短文本分类任务。我发现 SelectKBest 类可以选择 K 个最好的特征。然而，SelectKBest 的第一个参数是一个分数函数，它“接受两个数组 X 和 y，并返回一对数组(分数，pvalues)”。我知道得分，但 pvalues 的含义是什么？

最佳答案

一般来说，p 值表示在原假设下给定结果或更极端结果的可能性有多大。在您的特征选择案例中，零假设类似于此特征不包含有关预测目标的信息，其中没有信息可以从评分的意义上解释方法:如果您的评分方法测试例如单变量线性交互(f_classif、f_regression in sklearn.feature_selection 是您的评分函数的选项)，那么零假设表明这种线性交互是不存在。

TL;DR 特征选择分数的 p 值表示如果此变量与目标。

另一个一般性陈述:分数越大越好，p 值越小越好(并且损失越小越好)

关于python - 由特征选择(即 chi2 方法)产生的 p 值的含义是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23677734/

上一篇：python - GMPY2(或 GMP)是否具有 pow() 函数？

下一篇：python - Pandas 日期偏移和转换

javascript - 我可以 [反] 序列化箭头/js 实现中的数据帧字典吗？

matlab - 使用 matlab 中交叉验证的 Knn 分类器模型预测新数据集(测试数据)的标签

python - scikit-learn - 使用 svm.svc 分类器进行多标签分类，是否可以在没有probability=True的情况下进行？

python - 如何使用 OpenCV 和 SIFT 查找训练图像的多个实例

python - 如何在RandomizedSearchCV中使用样本加权？

python - SVM:使用 2 个以上特征时绘制决策面

python - scikit-learn - 根据新输入预测训练模型

python - 将对称矩阵(二维数组)的上/下三角部分转换为一维数组并将其返回为二维格式

Python 程序在读取文本文件时打印一个额外的空行