我鼓励解决下一个问题: 我正在尝试对大量文本文档进行分类。
共有 20 个类别:1 个正常类别,19 个 - 异常类别。 当我使用朴素贝叶斯分类时,我得到以下结果:分类对于 19 个类别效果良好,但对于“正常”类别,我遇到了许多错误分类错误:“正常”类别中的几乎所有情况都被归类为其他(非正常)类别。
我有一些问题:
- 我应该如何为“普通”类(class)选择训练集? (现在,我刚好适合 到“正常”类别的文本分类器集,1/20 比例)。
- 分类器可以这样指定吗:如果属于的概率
某个类小于某个阈值,则必须设置分类器
该样本的类别(例如正常)?
最佳答案
很可能每个类的实例数量不平衡导致了该问题。您需要在最终类估计上定义某种先验,以避免实例不平衡的问题,并且您需要通过交叉验证来微调此先验的外生参数。我猜狄利克雷先验用于多项式 NB。
关于machine-learning - 对具有不同类别比例的多个类别进行错误分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24382672/