python - 使用 TextBlob : every instance predicted as negative when adding more sample size 的朴素贝叶斯文本分类

标签 python machine-learning classification nltk textblob

我正在使用朴素贝叶斯模型将文档分类为正面和负面标签。它似乎适用于大约 72 个文档的小型平衡数据集。但是当我添加更多负面标签文档时，分类器将所有内容预测为负面。

我将我的数据集分成 80% 的训练集和 20% 的测试集。添加更多带有负面标签的文档肯定会使数据集倾斜。会不会是偏度使分类器将每个测试文档预测为负面？我正在使用朴素贝叶斯模型的 TextBlob/nltk 实现。

有什么想法吗？

最佳答案

是的，这可能是您的数据集使您的分类器产生了偏差。如果没有非常强烈的信号告诉分类器选择哪个类别，那么选择最普遍的类别(在您的情况下为负)是有意义的。您是否尝试过绘制类别分布与准确性的关系图？另一件可以尝试的事情是 k-fold validation这样您就不会偶然得出有偏见的 80-20 训练-测试划分。

关于python - 使用 TextBlob : every instance predicted as negative when adding more sample size 的朴素贝叶斯文本分类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22152533/

上一篇：python - 访问字符串列表中的每个字符，避免嵌套 for 循环

下一篇：python - 无法将 'list' 对象隐式转换为 str Python

machine-learning - 如何将预测概率限制为一类

R:如何使用随机森林来使用字符串变量预测二元结果？

python-3.x - 从 Cereal 图像中辨别有缺陷的 Cereal

python-3.x - 当将随机梯度下降与 Shogun NeuralNetwork 结合使用时，所有内容都分类相同

python - 基于 child 数量的Django查询集过滤器

machine-learning - 如何使用遗传算法在WEKA中找到投票分类器的权重？

Python tabula read_pdf 打开java控制台窗口

python - saxutils.escape() 转义分号两次

python - Pandas:根据现有列将列添加到 DataFrame