python - 由特征选择(即 chi2 方法)产生的 p 值的含义是什么?

标签 python classification scikit-learn feature-selection

<分区>

最近,我使用sklearn(一个python机器学习库)做了一个短文本分类任务。我发现 SelectKBest 类可以选择 K 个最好的特征。然而,SelectKBest 的第一个参数是一个分数函数,它“接受两个数组 X 和 y,并返回一对数组(分数,pvalues)”。我知道得分,但 pvalues 的含义是什么?

最佳答案

一般来说,p 值表示在原假设下给定结果或更极端结果的可能性有多大。在您的特征选择案例中,零假设类似于此特征不包含有关预测目标的信息,其中没有信息可以从评分的意义上解释方法:如果您的评分方法测试例如单变量线性交互(f_classiff_regression in sklearn.feature_selection 是您的评分函数的选项),那么零假设表明这种线性交互是不存在。

TL;DR 特征选择分数的 p 值表示如果此变量与目标。

另一个一般性陈述:分数越大越好p 值越小越好(并且损失越小越好)

关于python - 由特征选择(即 chi2 方法)产生的 p 值的含义是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23677734/

相关文章:

python - tensorflow 中是否有与list.append()类似的函数?

javascript - 我可以 [反] 序列化箭头/js 实现中的数据帧字典吗?

matlab - 使用 matlab 中交叉验证的 Knn 分类器模型预测新数据集(测试数据)的标签

python - scikit-learn - 使用 svm.svc 分类器进行多标签分类,是否可以在没有probability=True的情况下进行?

python - 如何使用 OpenCV 和 SIFT 查找训练图像的多个实例

python - 如何在RandomizedSearchCV中使用样本加权?

python - SVM:使用 2 个以上特征时绘制决策面

python - scikit-learn - 根据新输入预测训练模型

python - 将对称矩阵(二维数组)的上/下三角部分转换为一维数组并将其返回为二维格式

Python 程序在读取文本文件时打印一个额外的空行