我正在尝试使用维基百科 API 获取所有页面上的所有链接。目前我正在使用
但这好像不是从第一篇开始到最后一篇结束的。我怎样才能让它生成所有页面及其所有链接?
最佳答案
英文维基百科拥有大约 10.5 亿个内部链接。考虑到 list=alllinks
模块每个请求有 500 个链接的限制,从 API 获取所有链接是不现实的。
相反,您可以下载 Wikipedia's database dumps并使用那些。具体来说,您需要 pagelinks
转储,其中包含有关链接本身的信息,并且很可能还需要 page
转储,用于将页面 ID 映射到页面标题。
关于graph - 制作维基百科链接树,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42983236/