用于识别文章主题的 python 库

标签 python statistics nlp identifier corpus

我收集了大量文章，80.000 篇，我想提取有关一个主题的文章。是否有一个 python 库或脚本，我可以在其中输入手动选择的关于主题 A 的文章样本，然后它会通过比较所使用的单词及其频率，从存档中提取关于主题 A 的文章。

我已经阅读了有关 Dunning 方法的内容，但是是否有一个现成的脚本，我可以最好使用 python。

谢谢

最佳答案

查看自然语言工具包 ( http://nltk.org )，它是一个出色的 Python 库，用于处理自然语言语料库(如您的文章集)并从中提取含义。另外，根据您还想做什么，我推荐使用 scikit-learn 库 ( http://scikit-learn.org/ ) 来完成提取文本上的其他机器学习任务。

关于用于识别文章主题的 python 库，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15745457/

上一篇：python - 是否有能够计算 3D 网格对偶的 python 库？

下一篇：python - OpenERP - 模块导入错误

相关文章：

python - 验证一列中的条件规则和另一列中的重复

python - 需要使用 python 替换配置文件中的相似键值

python - simplexml_load_string 等效于 Python/Django

math - 超过 2 次分割的分割检验的显着性检验

c++ - 如何从 C++ 代码中获取统计分布？

c - 拟合未知曲线

python - spacy 中的词向量示例问题

nlp - 自然语言中的范围歧义

algorithm - 单词着色和语法分析

python - 如何读取位图文件并在之后裁剪它？