machine-learning - 我想要一台机器学习对短文本进行分类

我有大量大约 500 字长的短篇故事，我想将它们分为 20 个类别之一:

我可以对其中的一堆进行手动分类，但我想实现机器学习来最终猜测类别。解决这个问题的最佳方法是什么？我应该使用机器学习的标准方法吗？我认为决策树效果不佳，因为它是文本数据......

最佳答案

一个naive Bayes很可能会为你工作。方法是这样的:

修复多个类别并获取(文档、类别)对的训练数据集。
文档的数据向量就像一个词袋。例如取 100 个最常用的单词，除了“the”、“and”等单词。每个单词都有数据向量的固定组成部分(例如“食物”位于位置 5)。特征向量是一个 bool 值数组，每个 bool 值指示该单词是否出现在相应的文档中。

培训:

决定:

给定一个未分类的文档，它属于 C 类的概率与 P(C|F1, ..., F500) = P(C) * P(F1|C) * P(F2|C) 成正比* ... * P(F500|C)。选择使该项最大化的 C。
由于乘法在数值上很困难，因此您可以使用对数之和，它在相同的 C 处最大化:log P(C|F1, ..., F500) = log P(C) + log P( F1|C) + log P(F2|C) + ... + log P(F500|C)。

关于machine-learning - 我想要一台机器学习对短文本进行分类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2696392/