machine-learning - scikit learn 对停用词进行分类

标签 machine-learning scikit-learn classification

这是一个示例,其中有逐步的过程使系统学习并对输入数据进行分类。

它对给定的 5 个数据集域进行了正确分类。此外,它还对停用词进行分类。

例如

输入:docs_new = ['上帝就是爱', '什么在哪里']

输出:

'God is love' => soc.religion.christian
'what is where' => soc.religion.christian

此处 what is where 不应分类,因为它仅包含停用词。 scikit 在这种场景下如何学习函数?

最佳答案

我不确定您使用的是什么分类器。但我们假设您使用朴素贝叶斯分类器。

在这种情况下,样本被标记为给定特定单词模式后验概率最大的类。
后验概率计算为

后验 = 可能性 x 先验

请注意,证据项已被删除,因为它是常数)。此外,还有附加平滑以避免可能性为零的情况。
无论如何,如果您的输入文本中只有停用词,则所有类别的可能性都是恒定的,并且后验概率完全由您的先验概率决定。因此,基本上发生的情况是,朴素贝叶斯分类器(如果先验是根据训练数据估计的)将分配训练数据中最常出现的类标签。

关于machine-learning - scikit learn 对停用词进行分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25644905/

相关文章:

python - 自定义评分指标 sklearn 逻辑回归

r - 如何使用R的遗传算法来优化支持向量机的参数

algorithm - 使用 Epsilon 进行过采样

r - 从 R 中的切割树状图中提取标签成员/分类(即 : a cutree function for dendrogram)

r - R : how does xgb. cv 中的 xgboost 将最优参数传递到 xgb.train

python - skflow.TensorFlowDNNRegressor 参数

python-3.x - Keras 模型 - Unet 图像分割

python - 创建一个自定义的 sklearn TransformerMixin 来一致地转换分类变量

machine-learning - 如何在 scikit learn 中使用核密度估计作为一维聚类方法?

python - 决策树 - 边缘/分支很轻,不可见