用于识别文章主题的 python 库

标签 python statistics nlp identifier corpus

我收集了大量文章,80.000 篇,我想提取有关一个主题的文章。是否有一个 python 库或脚本,我可以在其中输入手动选择的关于主题 A 的文章样本,然后它会通过比较所使用的单词及其频率,从存档中提取关于主题 A 的文章。

我已经阅读了有关 Dunning 方法的内容,但是是否有一个现成的脚本,我可以最好使用 python。

谢谢

最佳答案

查看自然语言工具包 ( http://nltk.org ),它是一个出色的 Python 库,用于处理自然语言语料库(如您的文章集)并从中提取含义。另外,根据您还想做什么,我推荐使用 scikit-learn 库 ( http://scikit-learn.org/ ) 来完成提取文本上的其他机器学习任务。

关于用于识别文章主题的 python 库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15745457/

相关文章:

python - 验证一列中的条件规则和另一列中的重复

python - 需要使用 python 替换配置文件中的相似键值

python - simplexml_load_string 等效于 Python/Django

math - 超过 2 次分割的分割检验的显着性检验

c++ - 如何从 C++ 代码中获取统计分布?

c - 拟合未知曲线

python - spacy 中的词向量示例问题

nlp - 自然语言中的范围歧义

algorithm - 单词着色和语法分析

python - 如何读取位图文件并在之后裁剪它?