graph - 制作维基百科链接树

标签 graph wikipedia wikipedia-api

我正在尝试使用维基百科 API 获取所有页面上的所有链接。目前我正在使用

https://en.wikipedia.org/w/api.php?format=json&action=query&generator=alllinks&prop=links&pllimit=max&plnamespace=0

但这好像不是从第一篇开始到最后一篇结束的。我怎样才能让它生成所有页面及其所有链接?

最佳答案

英文维基百科拥有大约 10.5 亿个内部链接。考虑到 list=alllinks 模块每个请求有 500 个链接的限制,从 API 获取所有链接是不现实的。

相反,您可以下载 Wikipedia's database dumps并使用那些。具体来说,您需要 pagelinks 转储,其中包含有关链接本身的信息,并且很可能还需要 page 转储,用于将页面 ID 映射到页面标题。

关于graph - 制作维基百科链接树,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42983236/

相关文章:

sparql - dbpedia 以英语以外的语言获取实体

wikipedia - 如何从维基百科信息框中提取信息?

r - ggplot2:具有独立 `Y` 轴的不同面宽度

wikipedia - 如何从维基百科获取搜索结果

mysql - (大约)en.wikipedia页面链接表包含多少行?

wikipedia-api - Mediawiki API Sandbox - 获取所有翻译选项

wikipedia-api - 如何从 API 获取给定维基百科页面的编辑总数?

python-3.x - 如何获得networkx中无向边的权重?

javascript - 不知道为什么 CanvasJS 图表代码会导致空白页面

Python NetworkX 从根节点的有向图中查找子图