machine-learning - 对具有不同类别比例的多个类别进行错误分类

我鼓励解决下一个问题: 我正在尝试对大量文本文档进行分类。

共有 20 个类别:1 个正常类别，19 个 - 异常类别。当我使用朴素贝叶斯分类时，我得到以下结果:分类对于 19 个类别效果良好，但对于“正常”类别，我遇到了许多错误分类错误:“正常”类别中的几乎所有情况都被归类为其他(非正常)类别。

我有一些问题:

最佳答案

很可能每个类的实例数量不平衡导致了该问题。您需要在最终类估计上定义某种先验，以避免实例不平衡的问题，并且您需要通过交叉验证来微调此先验的外生参数。我猜狄利克雷先验用于多项式 NB。

关于machine-learning - 对具有不同类别比例的多个类别进行错误分类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/24382672/