machine-learning - 如何利用标签概率进行文本分类？

标签 machine-learning classification mahout text-mining

我正在尝试出于学术目的解决文本分类问题。我需要将推文分类为“云”、“冷”、“干燥”、“热”、“潮湿”、“飓风”、“冰”、“雨”、“雪”、“ Storm ”、“风”和“其他”。训练数据中的每条推文都有针对所有标签的概率。说出这样的信息:“已经可以看出这将是艰难的得分日。现在的风和昨天下午一样大。”有 21% 的几率为热，79% 的几率为风。我研究了预测是风、热还是其他的分类问题。但在这个问题中，每个训练数据都有针对所有标签的概率。我之前使用过 mahout 朴素贝叶斯分类器，它采用给定文本的特定标签来构建模型。如何将各种标签的这些输入概率转换为任何分类器的输入？

最佳答案

在概率设置中，这些概率反射(reflect)了训练实例的类标签的不确定性。这会影响分类器中的参数学习。

有一种自然的方式来合并这一点:例如，在朴素贝叶斯中，当估计模型中的参数时，文档所属类的每个单词的计数不是一，而是概率。因此，属于某个类别的概率较高的文档对该类别的参数贡献更大。这种情况与使用 EM 学习多项式混合模型时完全相同，其中您拥有的概率与实例的隶属度/指示变量相同。

或者，如果您的分类器是具有 softmax 输出的神经网络，而不是目标输出是具有单个 [1] 和许多零的向量，则目标输出将成为您提供的概率向量。

不幸的是，我不知道有任何标准实现可以让您融入这些想法。

关于machine-learning - 如何利用标签概率进行文本分类？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19221289/

上一篇：machine-learning - 何时在机器学习中使用生成算法？

下一篇：csv - 如何在 scikit 中训练 svm 从 csv 文件中的训练数据中学习

python - 顺序拟合随机森林sklearn

python - 如何解决方法不可迭代的问题？

installation - 如何在本地主机(mac)上安装Mahout(Hadoop)

hadoop - 如何将Hadoop与Mahout集成？

machine-learning - 增加 J48 树尺寸 weka

machine-learning - 我可以使用函数实现分类器吗？

python - 编码器一热混淆

machine-learning - 训练+测试集是否必须与预测集不同(以便您需要对所有列应用时移)？

macos - mahout 0.9 和 hadoop 2.6 中线程 "main"java.lang.IncompatibleClassChangeError 中的异常