mediawiki - 维基百科 API : Excluding References From Parse Request

标签 mediawiki wikipedia wikipedia-api mediawiki-api

我正在尝试按照页面上显示的顺序或合理接近的顺序从特定页面获取链接。我相信我使用解析请求找到了正确的 API 调用,但是我注意到我得到了很多我认为是“垃圾”的链接,这些链接实际上是在引用中完成的链接。例如,对于 Albert Einstein,我执行请求 ( http://en.wikipedia.org/w/api.php?action=parse&format=json&page=Albert%20Einstein&redirects=&prop=links ),我将获得出现在 E. T. Whittaker 和 JSTOR 等引用文献中的链接。出于我的目的,引用中的这些链接是“垃圾”。

或者,我查看了查询命令,但发现带有 prop=link 的查询命令最终只会给我按字母顺序排列的链接,这会丢失我想要查看的部分信息。此外,此 API 查询还包括来自引用中的这些“垃圾”链接。

我是否可以告诉解析命令忽略引用标签内的链接,或者我是否需要使用 API 检索文本,然后自己在客户端进行解析?

最佳答案

我也不认为有一种方法可以准确地获得您正在寻找的东西。如果您要求 MediaWiki 解析页面,它将在返回之前解析所有模板引用。如果我需要做你想做的事,我会直接获取页面的原始维基文本:

http://en.wikipedia.org/w/api.php?action=parse&format=json&page=Albert%20Einstein&redirects=&prop=wikitext

然后使用它进行我自己的解析。使用正则表达式查找所有 wiki 链接应该很容易。从页面中删除所有模板也很容易。

关于mediawiki - 维基百科 API : Excluding References From Parse Request,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16259946/

相关文章:

wiki - MediaWiki之后要使用哪个Wiki?

c# - 维基链接 - 将文本 [[a]] 变成内部链接

java - 电报机器人——使用 API

javascript - 维基百科如何将关键词变成链接?

javascript - 无法让维基百科的 API 工作

wikipedia - 如何通过 API 从维基百科页面获取坐标?

mediawiki - 将 (?) 信息框从维基百科移植到我自己的维基

mediawiki - wikitravel - 如何获取图片链接

r - 如何为物种页面下载维基百科图像

php - 调用 MediaWiki 页面解析器来获取 HTML?