我正在使用朴素贝叶斯模型将文档分类为正面和负面标签。它似乎适用于大约 72 个文档的小型平衡数据集。但是当我添加更多负面标签文档时,分类器将所有内容预测为负面。
我将我的数据集分成 80% 的训练集和 20% 的测试集。添加更多带有负面标签的文档肯定会使数据集倾斜。会不会是偏度使分类器将每个测试文档预测为负面?我正在使用朴素贝叶斯模型的 TextBlob/nltk 实现。
有什么想法吗?
最佳答案
是的,这可能是您的数据集使您的分类器产生了偏差。如果没有非常强烈的信号告诉分类器选择哪个类别,那么选择最普遍的类别(在您的情况下为负)是有意义的。您是否尝试过绘制类别分布与准确性的关系图?另一件可以尝试的事情是 k-fold validation这样您就不会偶然得出有偏见的 80-20 训练-测试划分。
关于python - 使用 TextBlob : every instance predicted as negative when adding more sample size 的朴素贝叶斯文本分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22152533/