我们正在建立一个科学论文数据库并对摘要进行分析。目标是能够说“对该主题的兴趣比去年增加了 20%”。我已经尝试过关键字分析,但并不十分喜欢结果。因此,现在我正尝试着手研究短语和单词之间的接近度,并意识到我已经不知所措了。任何人都可以指出我更好的解决方案,或者至少给我一个很好的谷歌术语来了解更多信息?
使用的语言是 python,但我认为这不会真正影响您的回答。预先感谢您的帮助。
最佳答案
这是一个很大的主题,但是可以在 NLTK 工具包中找到对 NLP 的很好的介绍。这是为了教学和与 Python 一起工作 - 即。适合涉猎和试验。 NLTK 网站上还有一本非常好的开源书籍(也是 O'Reilly 的纸质版)。
关于string - 评估段落的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4129117/