我正在寻找图书馆,无论它是机器学习还是其他东西,这都没关系,这将帮助我对我拥有的内容进行分类。基本上我的内容是写的文章,我想知道其中哪些是政治或体育等等,所以我对它们进行了分类。
我正在尝试 openNLP,但无法让它按照我的需要工作,还有什么可以解决我的需求吗?
我想我需要某种具有自然语言处理 NLP 的机器学习,但目前我找不到可以完成我工作的东西。
最佳答案
这是一个简单的实现,但您可以进一步即兴发挥。为了对类别下的段落进行分类,首先尝试提取特定主题的训练数据中的唯一单词。
例如:使用NLTK从谈论体育的段落集合中提取唯一的单词并将其存储在一个集合中。然后对其他主题进行类似的操作并将它们存储在集合中。现在减去集合中的常见单词,以便您现在可以找到可能代表特定主题的特定独特单词。
所以,现在当您输入一个段落时,它应该为您提供 one-hot 输出。 现在组合列表中所有唯一的单词。
现在,当您分析一个段落时,如果您找到这些单词,请将它们设置为 1。
就像,在分析第一段之后,您可能会得到如下结果:
[ 0, 0, 1, 0, 1, .... 1, 0, 0] -> 表示找到了位置3的唯一词等
因此,您的训练数据将作为one-hot 编码的输入和输出。 即,如果您有三个类别,并且您的第一段属于第一个主题,那么结果将类似于 [1,0,0]。
收集许多输入和结果进行训练,然后使用新输入进行测试。您将获得更高的概率来了解它所适合的主题。
您可以使用基本神经网络和普通的softmax损失函数来训练它。这可能只需要您一个小时即可完成。
祝一切顺利。
关于machine-learning - 文献类型分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42922535/