machine-learning - scikit learn 对停用词进行分类

标签 machine-learning scikit-learn classification

这是一个示例，其中有逐步的过程使系统学习并对输入数据进行分类。

它对给定的 5 个数据集域进行了正确分类。此外，它还对停用词进行分类。

例如

输入:docs_new = ['上帝就是爱', '什么在哪里']

输出:

'God is love' => soc.religion.christian
'what is where' => soc.religion.christian

此处 what is where 不应分类，因为它仅包含停用词。 scikit 在这种场景下如何学习函数？

最佳答案

我不确定您使用的是什么分类器。但我们假设您使用朴素贝叶斯分类器。

在这种情况下，样本被标记为给定特定单词模式后验概率最大的类。
后验概率计算为

后验 = 可能性 x 先验

请注意，证据项已被删除，因为它是常数)。此外，还有附加平滑以避免可能性为零的情况。
无论如何，如果您的输入文本中只有停用词，则所有类别的可能性都是恒定的，并且后验概率完全由您的先验概率决定。因此，基本上发生的情况是，朴素贝叶斯分类器(如果先验是根据训练数据估计的)将分配训练数据中最常出现的类标签。

关于machine-learning - scikit learn 对停用词进行分类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/25644905/

上一篇：java - 专门用于文档的机器学习库

下一篇：python - 财经新闻的机器学习

相关文章：

python - 自定义评分指标 sklearn 逻辑回归

r - 如何使用R的遗传算法来优化支持向量机的参数

algorithm - 使用 Epsilon 进行过采样

r - 从 R 中的切割树状图中提取标签成员/分类(即 : a cutree function for dendrogram)

r - R : how does xgb. cv 中的 xgboost 将最优参数传递到 xgb.train

python - skflow.TensorFlowDNNRegressor 参数

python-3.x - Keras 模型 - Unet 图像分割

python - 创建一个自定义的 sklearn TransformerMixin 来一致地转换分类变量

machine-learning - 如何在 scikit learn 中使用核密度估计作为一维聚类方法？

python - 决策树 - 边缘/分支很轻，不可见