这是一个示例,其中有逐步的过程使系统学习并对输入数据进行分类。
它对给定的 5 个数据集域进行了正确分类。此外,它还对停用词进行分类。
例如
输入:docs_new = ['上帝就是爱', '什么在哪里']
输出:
'God is love' => soc.religion.christian
'what is where' => soc.religion.christian
此处 what is where
不应分类,因为它仅包含停用词。 scikit 在这种场景下如何学习函数?
最佳答案
我不确定您使用的是什么分类器。但我们假设您使用朴素贝叶斯分类器。
在这种情况下,样本被标记为给定特定单词模式后验概率最大的类。
后验概率计算为
后验 = 可能性 x 先验
请注意,证据项已被删除,因为它是常数)。此外,还有附加平滑以避免可能性为零的情况。
无论如何,如果您的输入文本中只有停用词,则所有类别的可能性都是恒定的,并且后验概率完全由您的先验概率决定。因此,基本上发生的情况是,朴素贝叶斯分类器(如果先验是根据训练数据估计的)将分配训练数据中最常出现的类标签。
关于machine-learning - scikit learn 对停用词进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25644905/