string - 评估段落的内容

标签 string data-mining nlp

我们正在建立一个科学论文数据库并对摘要进行分析。目标是能够说“对该主题的兴趣比去年增加了 20%”。我已经尝试过关键字分析,但并不十分喜欢结果。因此,现在我正尝试着手研究短语和单词之间的接近度,并意识到我已经不知所措了。任何人都可以指出我更好的解决方案,或者至少给我一个很好的谷歌术语来了解更多信息?

使用的语言是 python,但我认为这不会真正影响您的回答。预先感谢您的帮助。

最佳答案

这是一个很大的主题,但是可以在 NLTK 工具包中找到对 NLP 的很好的介绍。这是为了教学和与 Python 一起工作 - 即。适合涉猎和试验。 NLTK 网站上还有一本非常好的开源书籍(也是 O'Reilly 的纸质版)。

关于string - 评估段落的内容,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4129117/

相关文章:

mysql - 具有复数/变位的英语单词数据库

java - 如何检查一个字符串是否包含任何顺序的子字符串?

regex - 在 Scala 中的给定索引之后查找字符串中的正则表达式匹配

c++ - 给出奇怪值的字符串

java - 应使用哪种罗马化标准来改进 ICU4j 的阿拉伯语-拉丁语音译?

python - 解析/识别职位描述中的部分

swift - 从 Firebase 实时数据库获取数据返回 nil Swift

scipy - 如何使用 Scipy 处理巨大的稀疏矩阵构造?

machine-learning - 如何通过简单的模拟模型生成人工数据集,用于具有二元响应和 4-5 个特征的分类分析?

machine-learning - 决策树——节点的熵可以为零吗?