machine-learning - 朴素贝叶斯分类器的平衡语料库

我正在使用 NB 分类器进行情感分析。我发现了一些训练语料库应该平衡的信息(博客、教程等):

我的问题是:

为什么corpus应该平衡？贝叶斯定理基于原因/案例的概率。因此，出于训练目的，现实世界中负面推文只有 10% 而不是 33.3% 不是很重要吗？

最佳答案

你是对的，平衡数据对于许多判别模型很重要，但对于 NB 来说并不重要。

然而，偏倚 P(y) 估计量可能更有益于获得更好的预测性能(因为由于使用了各种简化模型，分配给少数类的概率可能严重不足)。对于 NB，它不是关于平衡数据，而是从字面上修改估计的 P(y)，以便在验证集上最大化准确性。

关于machine-learning - 朴素贝叶斯分类器的平衡语料库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44866462/