machine-learning - 对具有不同类别比例的多个类别进行错误分类

标签 machine-learning nlp scikit-learn text-classification

我鼓励解决下一个问题: 我正在尝试对大量文本文档进行分类。

共有 20 个类别:1 个正常类别,19 个 - 异常类别。 当我使用朴素贝叶斯分类时,我得到以下结果:分类对于 19 个类别效果良好,但对于“正常”类别,我遇到了许多错误分类错误:“正常”类别中的几乎所有情况都被归类为其他(非正常)类别。

我有一些问题:

  • 我应该如何为“普通”类(class)选择训练集? (现在,我刚好适合 到“正常”类别的文本分类器集,1/20 比例)。
  • 分类器可以这样指定吗:如果属于的概率 某个类小于某个阈值,则必须设置分类器
    该样本的类别(例如正常)?

最佳答案

很可能每个类的实例数量不平衡导致了该问题。您需要在最终类估计上定义某种先验,以避免实例不平衡的问题,并且您需要通过交叉验证来微调此先验的外生参数。我猜狄利克雷先验用于多项式 NB。

关于machine-learning - 对具有不同类别比例的多个类别进行错误分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24382672/

相关文章:

machine-learning - scikit-learn TfidfVectorizer 含义?

scikit-learn - 如何正确使用带有 MinMaxScaler + NMF 的 Pipleline 来预测数据?

python-3.x - 类型错误: __init__() got an unexpected keyword argument 'n_folds' ,情感分析与SVM

python - fusion_matrix - 太多值无法解压

machine-learning - 使用 spaCy 进行额外的命名实体识别需要多少训练数据量?

python-3.x - 理解成本函数的数学表达式

python - 凯拉斯/ tensorflow : Weird dropout behaviour

python - 与 CNN 交叉验证

java - 从 NER 获取全名

nlp - POS 模式过滤器?