machine-learning - 文献类型分类

我正在寻找图书馆，无论它是机器学习还是其他东西，这都没关系，这将帮助我对我拥有的内容进行分类。基本上我的内容是写的文章，我想知道其中哪些是政治或体育等等，所以我对它们进行了分类。

我正在尝试 openNLP，但无法让它按照我的需要工作，还有什么可以解决我的需求吗？

我想我需要某种具有自然语言处理 NLP 的机器学习，但目前我找不到可以完成我工作的东西。

最佳答案

这是一个简单的实现，但您可以进一步即兴发挥。为了对类别下的段落进行分类，首先尝试提取特定主题的训练数据中的唯一单词。

例如:使用NLTK从谈论体育的段落集合中提取唯一的单词并将其存储在一个集合中。然后对其他主题进行类似的操作并将它们存储在集合中。现在减去集合中的常见单词，以便您现在可以找到可能代表特定主题的特定独特单词。

所以，现在当您输入一个段落时，它应该为您提供 one-hot 输出。现在组合列表中所有唯一的单词。

现在，当您分析一个段落时，如果您找到这些单词，请将它们设置为 1。

就像，在分析第一段之后，您可能会得到如下结果:

[ 0, 0, 1, 0, 1, .... 1, 0, 0] -> 表示找到了位置3的唯一词等

因此，您的训练数据将作为one-hot 编码的输入和输出。 即，如果您有三个类别，并且您的第一段属于第一个主题，那么结果将类似于 [1,0,0]。

收集许多输入和结果进行训练，然后使用新输入进行测试。您将获得更高的概率来了解它所适合的主题。

您可以使用基本神经网络和普通的softmax损失函数来训练它。这可能只需要您一个小时即可完成。

祝一切顺利。

关于machine-learning - 文献类型分类，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/42922535/