<分区>
重写:
我有一个计算机科学相关文档的语料库。我想提取域特定的关键字。例如 JAVA、C#、HTML、OOP、UML、Unity 等。我一直在寻找类似于 Oxford dictionary 的计算来源,但他们的 API 尚未启动并运行。我也试过 Webopedia 的计算机科学术语,但那个不是包容性和更新的(例如,它不包括我的文档中的一些词,如 F#)或者在 Wikipedia 的情况下,所有术语都没有列出。是否有更具包容性的来源或适当的方法来提取这些关键字?我将 Python 与 NLTK 一起使用。例如,tf-idf 没有帮助,因为一些领域特定的词几乎在所有文档中都很常见,所以这些词没有得到高评价。我认为如果我可以使用词性标记会很有帮助,但我不确定哪个选项最适合我的应用程序。以下面的字符串为例:
“JavaScript、JSON 和 AJAX 方面的专家级能力,以及对 JavaScript 框架(如 JQuery)的深入了解 “ 在这里我想提取这些词:['JavaScript', 'JSON', 'AJAX', 'Frameworks', 'JQuery'] 但是当我使用 NLTK 的 POS 标记搜索名词时,我得到 'level', 'capability ','知识'......也是如此。 感谢您的帮助。