我正在做逻辑回归来预测二元变量的结果,比如一篇期刊论文是否被接受。因变量或预测变量是这些论文中使用的所有短语 - (一元组、二元组、三元组)。其中一个短语在“已接受”类别中出现得偏斜。包含这个短语可以让分类器具有非常高的准确度(超过 90%),而删除这个短语会导致准确度下降到 70% 左右。 我更一般(天真的)机器学习问题是: 在进行分类时是否建议删除此类倾斜特征? 有没有一种方法可以检查每个特征的倾斜存在,然后决定是否将其保留在模型中?
最佳答案
如果我理解正确,你会问是否应该删除某些特征,因为它是一个好的预测器(它使你的分类器工作得更好)。所以答案很简短 - 不要删除它事实上,整个概念就是找到正是这样的功能。
删除此类特征的唯一原因是这种现象仅发生在训练集中,而不是真实数据中。但在这种情况下,您的数据是错误的 - 这并不代表底层数据密度,您应该收集更好的数据或“清理”当前数据,以便它具有与“真实数据”类似的特征。
关于machine-learning - 在一类中具有较高存在感的预测功能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20033612/