nltk - 从文本文档中提取技术关键字

标签 nltk glossary keyword-search pos-tagger

<分区>

重写:

我有一个计算机科学相关文档的语料库。我想提取域特定的关键字。例如 JAVA、C#、HTML、OOP、UML、Unity 等。我一直在寻找类似于 Oxford dictionary 的计算来源,但他们的 API 尚未启动并运行。我也试过 Webopedia 的计算机科学术语,但那个不是包容性和更新的(例如,它不包括我的文档中的一些词,如 F#)或者在 Wikipedia 的情况下,所有术语都没有列出。是否有更具包容性的来源或适当的方法来提取这些关键字?我将 Python 与 NLTK 一起使用。例如,tf-idf 没有帮助,因为一些领域特定的词几乎在所有文档中都很常见,所以这些词没有得到高评价。我认为如果我可以使用词性标记会很有帮助,但我不确定哪个选项最适合我的应用程序。以下面的字符串为例:

“JavaScript、JSON 和 AJAX 方面的专家级能力,以及对 JavaScript 框架(如 JQuery)的深入了解 “ 在这里我想提取这些词:['JavaScript', 'JSON', 'AJAX', 'Frameworks', 'JQuery'] 但是当我使用 NLTK 的 POS 标记搜索名词时,我得到 'level', 'capability ','知识'......也是如此。 感谢您的帮助。

最佳答案

为什么不下载 StackOverflow 数据转储并编写程序来过滤标签?

它们刚刚在 archive.org 上发布,请参阅 here

当然,它不会包括所有术语,并且会有一些误报,但我认为这与您得到的差不多。

关于nltk - 从文本文档中提取技术关键字,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21371416/

相关文章:

python - 有人可以告诉我为什么这段代码没有按预期工作吗?

marshalling - 什么是对象编码?

javascript - 王牌编辑器 : How to implement both custom auto completion and default basic auto completion at the same time?

python - NLTK 与距离度量的一致性

nltk - python33如何使用nltk3?

python - 有人可以解释 BigramAssocMeasures.chi_sq 的语法吗?

documentation - 用于生成技术术语词汇表的不错工具

c# - 委托(delegate)和事件之间有什么区别?

java - 大家好,我想使用 Java 代码在我的文本文件中搜索这个词 "(Error: 87)"

youtube - 关键字搜索返回YouTube API中视频的错误描述