我正在尝试查询维基百科中某个类别页面的所有页面链接。 使用模板很容易做到这一点,但我在类别方面遇到了问题。
我通常通过 ssh 登录维基百科 ...@tools-login.wmflabs.org 并访问他们的mysql数据库。
例如,对于我通常使用的模板:
SELECT pl.pl_title
FROM page p
JOIN pagelinks pl on p.page_id=pl.pl_from
WHERE p.page_title='Aviation_accidents_and_incidents_in_2014' AND
p.page_namespace=10 AND
pl.pl_namespace=0;
这个查询很容易给我这个页面的所有页面链接https://en.wikipedia.org/wiki/Template:Aviation_accidents_and_incidents_in_2014
如果我想对类别页面做同样的事情 https://en.wikipedia.org/wiki/Category:Aviation_accidents_and_incidents_in_2004 :
SELECT pl.pl_title
FROM page p
JOIN pagelinks pl on p.page_id=pl.pl_from
WHERE p.page_title='Aviation_accidents_and_incidents_in_2014' AND
p.page_namespace=14 AND
pl.pl_namespace=0;
它什么也没返回。
我尝试了其他组合,但仍然无法得到它(再次为零结果)。
SELECT pl.pl_title
FROM category c
JOIN pagelinks pl on c.cat_id=pl.pl_from
WHERE c.cat_title='Aviation_accidents_and_incidents_in_2014' AND
pl.pl_namespace=0;
你有这样的例子吗?
任何帮助将不胜感激
最佳答案
您将需要使用 MediaWiki 的 categorylinks table :
SELECT p.page_title
FROM categorylinks AS cl
JOIN page AS p ON p.page_id=cl.cl_from
WHERE cl.cl_to='Aviation_accidents_and_incidents_in_2014';
查看结果 here .
关于mysql - 查询维基百科: retrieve links from a category page,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35755085/