machine-learning - 在一类中具有较高存在感的预测功能

标签 machine-learning logistic-regression

我正在做逻辑回归来预测二元变量的结果,比如一篇期刊论文是否被接受。因变量或预测变量是这些论文中使用的所有短语 - (一元组、二元组、三元组)。其中一个短语在“已接受”类别中出现得偏斜。包含这个短语可以让分类器具有非常高的准确度(超过 90%),而删除这个短语会导致准确度下降到 70% 左右。 我更一般(天真的)机器学习问题是: 在进行分类时是否建议删除此类倾斜特征? 有没有一种方法可以检查每个特征的倾斜存在,然后决定是否将其保留在模型中?

最佳答案

如果我理解正确,你会问是否应该删除某些特征,因为它是一个好的预测器(它使你的分类器工作得更好)。所以答案很简短 - 不要删除它事实上,整个概念就是找到正是这样的功能。

删除此类特征的唯一原因是这种现象仅发生在训练集中,而不是真实数据中。但在这种情况下,您的数据是错误的 - 这并不代表底层数据密度,您应该收集更好的数据或“清理”当前数据,以便它具有与“真实数据”类似的特征。

关于machine-learning - 在一类中具有较高存在感的预测功能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20033612/

相关文章:

machine-learning - 股票预测 : GRU model predicting same given values instead of future stock price

python - Sklearn Pipeline : How to build for kmeans, 聚类文本?

python - 在机器学习中使用不可训练的参数可以吗?

python - 在 Keras 中 reshape 自定义损失函数中的张量

r - MATLAB 中 R 对应项中的 "Sapply"函数,用于将代码从 R 转换为 MATLAB

machine-learning - 逻辑回归 : one-vs-all method for multi classification

machine-learning - 如何从 Octave 中的 Andrew Ng 作业中编写成本函数公式?

r - R中的glm()与Excel中逻辑回归的手动实现之间的结果不一致

python - Tensorflow 2.0 - 这些模型预测代表概率吗?

r - R 中对一组不同解释变量的并行面板 logit 计算