machine-learning - 朴素贝叶斯分类器的平衡语料库

标签 machine-learning bayesian naivebayes

我正在使用 NB 分类器进行情感分析。我发现了一些训练语料库应该平衡的信息(博客、教程等):

  • 33.3% 积极;
  • 33.3% 中立
  • 33.3% 负面

我的问题是:

为什么corpus应该平衡?贝叶斯定理基于原因/案例的概率。因此,出于训练目的,现实世界中负面推文只有 10% 而不是 33.3% 不是很重要吗?

最佳答案

你是对的,平衡数据对于许多判别模型很重要,但对于 NB 来说并不重要。

然而,偏倚 P(y) 估计量可能更有益于获得更好的预测性能(因为由于使用了各种简化模型,分配给少数类的概率可能严重不足)。对于 NB,它不是关于平衡数据,而是从字面上修改估计的 P(y),以便在验证集上最大化准确性。

关于machine-learning - 朴素贝叶斯分类器的平衡语料库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44866462/

相关文章:

python - 为什么会出现这个错误 "input_2_1:0 is both fed and fetched"?

machine-learning - Scikit-learn:BernoulliNB,v0.10 与 v0.13:结果截然不同

python - 如何在 Python 中构建朴素贝叶斯模型时使用时间戳数据

python - 卡尔曼滤波随着时间的推移改变已知方差?

python - 值错误 : operands could not be broadcast together with shapes in Naive bayes classifier

unit-testing - 如何对朴素贝叶斯词分类器进行单元测试?

Python/OpenCV - 基于机器学习的 OCR(图像到文本)

python - 如何获得一个值的 pandas Series 虚拟表示

python - 如何在具有 569 行(样本)和 30 列(特征)的数据矩阵上初始化 K 表示聚类?

python - PyMC3 高斯混合模型