我有一个目标变量,可以是0或1,其中99.34%是0(总共大约50,000个条目)。逻辑回归和朴素贝叶斯都只是预测全零。有人对此类问题有建议吗?我想确定功能的重要性。 干杯
编辑:我有大约 10 个特征可以用来预测
最佳答案
一种可能性是为训练示例赋予权重,以便 1 类示例在损失函数中比 0 类示例更重要。我不确定您正在使用什么语言/库,但例如scikit-learn 的 LogisticRegression有一个名为 class_weight
的参数可以为您处理这个问题(通过将其设置为 'balanced'
或您自己选择)。或者,如果您从头开始实现了逻辑回归,您可以自己轻松地将这些权重添加到损失函数中;它不会使梯度计算变得更加复杂。
关于machine-learning - 机器学习分类: Target variable almost completely one class,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38513053/