machine-learning - 文献类型分类

标签 machine-learning nlp classification text-classification categorization

我正在寻找图书馆,无论它是机器学习还是其他东西,这都没关系,这将帮助我对我拥有的内容进行分类。基本上我的内容是写的文章,我想知道其中哪些是政治或体育等等,所以我对它们进行了分类。

我正在尝试 openNLP,但无法让它按照我的需要工作,还有什么可以解决我的需求吗?

我想我需要某种具有自然语言处理 NLP 的机器学习,但目前我找不到可以完成我工作的东西。

最佳答案

这是一个简单的实现,但您可以进一步即兴发挥。为了对类别下的段落进行分类,首先尝试提取特定主题的训练数据中的唯一单词。

例如:使用NLTK从谈论体育的段落集合中提取唯一的单词并将其存储在一个集合中。然后对其他主题进行类似的操作并将它们存储在集合中。现在减去集合中的常见单词,以便您现在可以找到可能代表特定主题的特定独特单词。

所以,现在当您输入一个段落时,它应该为您提供 one-hot 输出。 现在组合列表中所有唯一的单词。

现在,当您分析一个段落时,如果您找到这些单词,请将它们设置为 1。

就像,在分析第一段之后,您可能会得到如下结果:

[ 0, 0, 1, 0, 1, .... 1, 0, 0] -> 表示找到了位置3的唯一词等

因此,您的训练数据将作为one-hot 编码的输入和输出。 即,如果您有三个类别,并且您的第一段属于第一个主题,那么结果将类似于 [1,0,0]。

收集许多输入和结果进行训练,然后使用新输入进行测试。您将获得更高的概率来了解它所适合的主题。

您可以使用基本神经网络和普通的softmax损失函数来训练它。这可能只需要您一个小时即可完成。

祝一切顺利。

关于machine-learning - 文献类型分类,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42922535/

相关文章:

machine-learning - Tensorflow 队列运行程序 - 是否可以对特定子集进行排队?

machine-learning - 机器学习中多项式和多项式回归有什么区别?

scikit-learn - XGBoost 从 booster 对象中获取分类器对象?

deep-learning - 使用批量归一化时的单一预测

machine-learning - 图论——学习成本函数寻找最优路径

image-processing - 使用机器学习创建植物健康分类器

image-processing - 验证码图像字符分割

python-3.x - 如何创建附加主题建模可视化?

python - 如何检查一个句子是否是一个带有空格的问题?

python - 是否有基于斯坦福神经网络的依赖解析器的 Python 包装器?