<分区>
最近,我使用sklearn(一个python机器学习库)做了一个短文本分类任务。我发现 SelectKBest 类可以选择 K 个最好的特征。然而,SelectKBest 的第一个参数是一个分数函数,它“接受两个数组 X 和 y,并返回一对数组(分数,pvalues)”。我知道得分,但 pvalues 的含义是什么?
<分区>
最近,我使用sklearn(一个python机器学习库)做了一个短文本分类任务。我发现 SelectKBest 类可以选择 K 个最好的特征。然而,SelectKBest 的第一个参数是一个分数函数,它“接受两个数组 X 和 y,并返回一对数组(分数,pvalues)”。我知道得分,但 pvalues 的含义是什么?
最佳答案
一般来说,p 值表示在原假设下给定结果或更极端结果的可能性有多大。在您的特征选择案例中,零假设类似于此特征不包含有关预测目标的信息,其中没有信息可以从评分的意义上解释方法:如果您的评分方法测试例如单变量线性交互(f_classif
、f_regression
in sklearn.feature_selection
是您的评分函数的选项),那么零假设表明这种线性交互是不存在。
TL;DR 特征选择分数的 p 值表示如果此变量与目标。
另一个一般性陈述:分数越大越好,p 值越小越好(并且损失越小越好)
关于python - 由特征选择(即 chi2 方法)产生的 p 值的含义是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23677734/
相关文章:
python - tensorflow 中是否有与list.append()类似的函数?
javascript - 我可以 [反] 序列化箭头/js 实现中的数据帧字典吗?
matlab - 使用 matlab 中交叉验证的 Knn 分类器模型预测新数据集(测试数据)的标签
python - scikit-learn - 使用 svm.svc 分类器进行多标签分类,是否可以在没有probability=True的情况下进行?
python - 如何使用 OpenCV 和 SIFT 查找训练图像的多个实例
python - 如何在RandomizedSearchCV中使用样本加权?
python - scikit-learn - 根据新输入预测训练模型