java - 来自 URL 的维基百科页面 ID

标签 java mediawiki wikipedia wikipedia-api

我正在通过 Java 中的维基百科转储进行解析。在我的模块中,我想知道当前页面引用的 wiki 内部页面的页面 ID。从中获取内部链接和 url 很容易。但是如何从 url 获取页面 ID。

我必须为此使用一些 mediaWiki 吗?如果是如何 还有其他选择吗?

例如:http://en.wikipedia.org/wiki/United_States 我想得到它的页面 ID,即 3434750

最佳答案

您可以为此使用 API。具体来说,查询看起来像这样:

http://en.wikipedia.org/w/api.php?action=query&titles=United_States

(您也可以在titles参数中指定多个页面标题,以|分隔。)

作为替代方案,您可以下载 page.sql dump (为英文维基百科压缩 1 GB),其中也包含此信息。要实际查询它,您可以将其导入 MySQL 数据库然后进行查询,或者您可以直接解析 SQL。

关于java - 来自 URL 的维基百科页面 ID,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22541443/

相关文章:

java - Spring Security ACL 层次结构

java - Spring mvc - 如何将所有错误的请求映射映射到单个方法

mediawiki - 使用 Wikimedia API 获取位置

php - 如何加载 Mediawiki 标签扩展的 css?

python - 维基百科爬虫的 cron 作业和任务队列的应用程序引擎 DeadlineExceededError

java - 使用 JNDI 作为我的数据源和属性文件的位置

java - ConcurrentHashMap - 奇怪的行为

linux - MediaWiki 扩展目录的默认位置

python - 将(所有)维基百科数据加载到 mongodb 中?

javascript - dokuwiki 页面上 clickNshow 的 jQuery 脚本