machine-learning - 在一类中具有较高存在感的预测功能

标签 machine-learning logistic-regression

我正在做逻辑回归来预测二元变量的结果，比如一篇期刊论文是否被接受。因变量或预测变量是这些论文中使用的所有短语 - (一元组、二元组、三元组)。其中一个短语在“已接受”类别中出现得偏斜。包含这个短语可以让分类器具有非常高的准确度(超过 90%)，而删除这个短语会导致准确度下降到 70% 左右。我更一般(天真的)机器学习问题是: 在进行分类时是否建议删除此类倾斜特征？有没有一种方法可以检查每个特征的倾斜存在，然后决定是否将其保留在模型中？

最佳答案

如果我理解正确，你会问是否应该删除某些特征，因为它是一个好的预测器(它使你的分类器工作得更好)。所以答案很简短 - 不要删除它事实上，整个概念就是找到正是这样的功能。

删除此类特征的唯一原因是这种现象仅发生在训练集中，而不是真实数据中。但在这种情况下，您的数据是错误的 - 这并不代表底层数据密度，您应该收集更好的数据或“清理”当前数据，以便它具有与“真实数据”类似的特征。

关于machine-learning - 在一类中具有较高存在感的预测功能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20033612/

上一篇：machine-learning - scikit 多标签分类 : ValueError: bad input shape

下一篇：machine-learning - Weka 3.7 中 RandomForest 的精确实现

python - Sklearn Pipeline : How to build for kmeans, 聚类文本？

python - 在机器学习中使用不可训练的参数可以吗？

python - 在 Keras 中 reshape 自定义损失函数中的张量

r - MATLAB 中 R 对应项中的 "Sapply"函数，用于将代码从 R 转换为 MATLAB

machine-learning - 逻辑回归 : one-vs-all method for multi classification

machine-learning - 如何从 Octave 中的 Andrew Ng 作业中编写成本函数公式？

r - R中的glm()与Excel中逻辑回归的手动实现之间的结果不一致

python - Tensorflow 2.0 - 这些模型预测代表概率吗？

r - R 中对一组不同解释变量的并行面板 logit 计算