<分区>
寻求帮助以做出最终决定。 几个月来,我一直在寻找一个 Java API,它可以帮助我访问维基百科并获取文章的内容。我的项目是建立给定领域概念的分类法。 详情:
- 我有一个领域文本语料库,我提取了第一组术语(代表领域)。
- 我在维基百科中搜索这些词的文章以提取它们的定义。这个词的定义帮助我找到这个词的超义词。对维基百科的调用肯定会在 java 循环中完成。
- 我搜索在上一步中找到的上位词的定义以找到它们的上位词,依此类推。
- 我画了一张图,将单词与其超义词联系起来。
我的问题是,对于第 2 步,我无法做出明确的决定。
- 我编写了 Java 代码来在线访问维基百科。它成功了,但我的连接速度决定了执行是成功还是失败,给出一组异常。有时,执行只给我 2 或 3 篇文章。
- 我尝试使用 JWPL 来处理维基百科转储。我失败了,因为我没有足够的 RAM。
- 我现在在一组 Java API 之间犹豫不决。
如果你已经在这个意义上做了一些事情,请给我你的观点。我进行了认真的调查,发现了以下链接:
- > http://wdm.cs.waikato.ac.nz:8080/wiki/Wiki.jsp?page=Installing%20the%20Java%20API
- > http://jwikiapi.sourceforge.net/index.html
- > http://code.google.com/p/gwtwiki/
- > http://www.mediawiki.org/wiki/API%3aMain_page
- > http://jwbf.sourceforge.net/
如果有任何建议,我将不胜感激。