我正在尝试使用朴素贝叶斯对样本进行分类。我的样本量是 280 万条记录,90% 的记录的类标签(因变量)=“0”,其余的记录为“1”。测试集中的分布也是相同的(90% - 10%) 朴素贝叶斯分类器将整个测试集标记为“0”。 我该如何处理这个案子?在这种情况下是否有任何其他算法可以实现。
最佳答案
使用更好的分类器可能会也可能不会解决您的问题。这里的问题是你的问题不平衡。如果数据是不可分离的,那么 90% 的准确率可能代表良好的性能,分类器通过始终做出相同的预测来实现这一点。如果这不是您想要的行为,您应该使用成本函数或从正例中重新采样,以便获得更均匀数量的正例。
关于machine-learning - 使用朴素贝叶斯分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20069064/