我收集了大量文章,80.000 篇,我想提取有关一个主题的文章。是否有一个 python 库或脚本,我可以在其中输入手动选择的关于主题 A 的文章样本,然后它会通过比较所使用的单词及其频率,从存档中提取关于主题 A 的文章。
我已经阅读了有关 Dunning 方法的内容,但是是否有一个现成的脚本,我可以最好使用 python。
谢谢
最佳答案
查看自然语言工具包 ( http://nltk.org ),它是一个出色的 Python 库,用于处理自然语言语料库(如您的文章集)并从中提取含义。另外,根据您还想做什么,我推荐使用 scikit-learn 库 ( http://scikit-learn.org/ ) 来完成提取文本上的其他机器学习任务。
关于用于识别文章主题的 python 库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15745457/