machine-learning - 如何利用标签概率进行文本分类?

标签 machine-learning classification mahout text-mining

我正在尝试出于学术目的解决文本分类问题。我需要将推文分类为“云”、“冷”、“干燥”、“热”、“潮湿”、“飓风”、“冰”、“雨”、“雪”、“ Storm ”、“风”和“其他”。训练数据中的每条推文都有针对所有标签的概率。说出这样的信息:“已经可以看出这将是艰难的得分日。现在的风和昨天下午一样大。”有 21% 的几率为热,79% 的几率为风。我研究了预测是风、热还是其他的分类问题。但在这个问题中,每个训练数据都有针对所有标签的概率。我之前使用过 mahout 朴素贝叶斯分类器,它采用给定文本的特定标签来构建模型。如何将各种标签的这些输入概率转换为任何分类器的输入?

最佳答案

在概率设置中,这些概率反射(reflect)了训练实例的类标签的不确定性。这会影响分类器中的参数学习。

有一种自然的方式来合并这一点:例如,在朴素贝叶斯中,当估计模型中的参数时,文档所属类的每个单词的计数不是一,而是 概率。因此,属于某个类别的概率较高的文档对该类别的参数贡献更大。这种情况与使用 EM 学习多项式混合模型时完全相同,其中您拥有的概率与实例的隶属度/指示变量相同。

或者,如果您的分类器是具有 softmax 输出的神经网络,而不是目标输出是具有单个 [1] 和许多零的向量,则目标输出将成为您提供的概率向量。

不幸的是,我不知道有任何标准实现可以让您融入这些想法。

关于machine-learning - 如何利用标签概率进行文本分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19221289/

相关文章:

machine-learning - 使用机器学习来估计给定数据流中偶数发生的可能性

python - 顺序拟合随机森林sklearn

python - 如何解决方法不可迭代的问题?

installation - 如何在本地主机(mac)上安装Mahout(Hadoop)

hadoop - 如何将Hadoop与Mahout集成?

machine-learning - 增加 J48 树尺寸 weka

machine-learning - 我可以使用函数实现分类器吗?

python - 编码器一热混淆

machine-learning - 训练+测试集是否必须与预测集不同(以便您需要对所有列应用时移)?

macos - mahout 0.9 和 hadoop 2.6 中线程 "main"java.lang.IncompatibleClassChangeError 中的异常