我正在尝试出于学术目的解决文本分类问题。我需要将推文分类为“云”、“冷”、“干燥”、“热”、“潮湿”、“飓风”、“冰”、“雨”、“雪”、“ Storm ”、“风”和“其他”。训练数据中的每条推文都有针对所有标签的概率。说出这样的信息:“已经可以看出这将是艰难的得分日。现在的风和昨天下午一样大。”有 21% 的几率为热,79% 的几率为风。我研究了预测是风、热还是其他的分类问题。但在这个问题中,每个训练数据都有针对所有标签的概率。我之前使用过 mahout 朴素贝叶斯分类器,它采用给定文本的特定标签来构建模型。如何将各种标签的这些输入概率转换为任何分类器的输入?
最佳答案
在概率设置中,这些概率反射(reflect)了训练实例的类标签的不确定性。这会影响分类器中的参数学习。
有一种自然的方式来合并这一点:例如,在朴素贝叶斯中,当估计模型中的参数时,文档所属类的每个单词的计数不是一,而是 概率。因此,属于某个类别的概率较高的文档对该类别的参数贡献更大。这种情况与使用 EM 学习多项式混合模型时完全相同,其中您拥有的概率与实例的隶属度/指示变量相同。
或者,如果您的分类器是具有 softmax 输出的神经网络,而不是目标输出是具有单个 [1] 和许多零的向量,则目标输出将成为您提供的概率向量。
不幸的是,我不知道有任何标准实现可以让您融入这些想法。
关于machine-learning - 如何利用标签概率进行文本分类?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19221289/