nltk - 从文本文档中提取技术关键字

标签 nltk glossary keyword-search pos-tagger

<分区>

关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。

要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describe the problem以及迄今为止为解决该问题所做的工作。

关闭 8 年前。

重写:

我有一个计算机科学相关文档的语料库。我想提取域特定的关键字。例如 JAVA、C#、HTML、OOP、UML、Unity 等。我一直在寻找类似于 Oxford dictionary 的计算来源，但他们的 API 尚未启动并运行。我也试过 Webopedia 的计算机科学术语，但那个不是包容性和更新的(例如，它不包括我的文档中的一些词，如 F#)或者在 Wikipedia 的情况下，所有术语都没有列出。是否有更具包容性的来源或适当的方法来提取这些关键字？我将 Python 与 NLTK 一起使用。例如，tf-idf 没有帮助，因为一些领域特定的词几乎在所有文档中都很常见，所以这些词没有得到高评价。我认为如果我可以使用词性标记会很有帮助，但我不确定哪个选项最适合我的应用程序。以下面的字符串为例:

“JavaScript、JSON 和 AJAX 方面的专家级能力，以及对 JavaScript 框架(如 JQuery)的深入了解 “ 在这里我想提取这些词:['JavaScript', 'JSON', 'AJAX', 'Frameworks', 'JQuery'] 但是当我使用 NLTK 的 POS 标记搜索名词时，我得到 'level', 'capability '，'知识'......也是如此。感谢您的帮助。

最佳答案

为什么不下载 StackOverflow 数据转储并编写程序来过滤标签？

它们刚刚在 archive.org 上发布，请参阅 here

当然，它不会包括所有术语，并且会有一些误报，但我认为这与您得到的差不多。

关于nltk - 从文本文档中提取技术关键字，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21371416/

上一篇：google-chrome - 在 Google Chrome 中测试 Behat 脚本

下一篇：sql-server - Sql server management studio : Load last used windows

相关文章：

python - 有人可以告诉我为什么这段代码没有按预期工作吗？

marshalling - 什么是对象编码？

javascript - 王牌编辑器 : How to implement both custom auto completion and default basic auto completion at the same time?

python - NLTK 与距离度量的一致性

nltk - python33如何使用nltk3？

python - 有人可以解释 BigramAssocMeasures.chi_sq 的语法吗？

documentation - 用于生成技术术语词汇表的不错工具

c# - 委托(delegate)和事件之间有什么区别？

java - 大家好，我想使用 Java 代码在我的文本文件中搜索这个词 "(Error: 87)"

youtube - 关键字搜索返回YouTube API中视频的错误描述