java - NLP使用维基百科(java编程)

标签 java api nlp wikipedia

<分区>

寻求帮助以做出最终决定。 几个月来,我一直在寻找一个 Java API,它可以帮助我访问维基百科并获取文章的内容。我的项目是建立给定领域概念的分类法。 详情:

  1. 我有一个领域文本语料库,我提取了第一组术语(代表领域)。
  2. 我在维基百科中搜索这些词的文章以提取它们的定义。这个词的定义帮助我找到这个词的超义词。对维基百科的调用肯定会在 java 循环中完成。
  3. 我搜索在上一步中找到的上位词的定义以找到它们的上位词,依此类推。
  4. 我画了一张图,将单词与其超义词联系起来。

我的问题是,对于第 2 步,我无法做出明确的决定。

  1. 我编写了 Java 代码来在线访问维基百科。它成功了,但我的连接速度决定了执行是成功还是失败,给出一组异常。有时,执行只给我 2 或 3 篇文章。
  2. 我尝试使用 JWPL 来处理维基百科转储。我失败了,因为我没有足够的 RAM。
  3. 我现在在一组 Java API 之间犹豫不决。

如果你已经在这个意义上做了一些事情,请给我你的观点。我进行了认真的调查,发现了以下链接:

  1. > http://wdm.cs.waikato.ac.nz:8080/wiki/Wiki.jsp?page=Installing%20the%20Java%20API
  2. > http://jwikiapi.sourceforge.net/index.html
  3. > http://code.google.com/p/gwtwiki/
  4. > http://www.mediawiki.org/wiki/API%3aMain_page
  5. > http://jwbf.sourceforge.net/

如果有任何建议,我将不胜感激。

最佳答案

我在做硕士论文时做了类似的事情。我手头没有代码,但我想我写了一个独立的 python 库(使用 python request )来获取维基百科页面。

我记得偶尔会遇到异常。我的解决方案是产生一个线程来执行提取,如果该线程处于非 Activity 状态,则使用当前项重新启动提取过程。连接速度无关紧要,维基百科页面不是很大。我发现 Wikipedia API 不是很有帮助。编写抓取维基百科的 python 或 ruby​​ 脚本是微不足道的。

关于java - NLP使用维基百科(java编程),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8350155/

相关文章:

java - 同时向两个表插入数据。 h2数据库

java - 如何在Log4j2.xml中配置SNMP Appender?

java - 切换图例可见性时 TChart 崩溃?

php - 为什么我应该创建守护进程而不是命令行工具?

c# - c#代码中的youtube api

python - 从关键字生成句子。每个关键字都有相关单词包

java - 如何在java或android中以相反的顺序对对象数组列表进行排序?

python - spacy 中的词向量示例问题

java - 有没有Java库提供ASCII特殊字符列表?

javascript - 捆绑 API 请求