python - 如何从某篇文章中获取完整的维基百科修订历史列表?

标签 python web-scraping wikipedia-api revision-history

如何获得完整的维基百科修订历史列表? (不想刮)

import wapiti
import pdb
import pylab as plt  
client = wapiti.WapitiClient('mahmoudrhashemi@gmail.com')
get_revs = client.get_page_revision_infos( 'Coffee', 1000000)
print len(gen_revs)

500

包裹链接:https://github.com/mahmoud/wapiti

最佳答案

如果您需要超过 500 个修订条目,则必须将 MediaWiki API 与操作 query、属性 revisions 和参数 rvcontinue 一起使用,这是取自上一个请求,因此您无法仅通过一个请求获得整个列表:

https://en.wikipedia.org/w/api.php?action=query&prop=revisions&titles=Coffee&rvcontinue=...

要获得您选择的更具体的信息,您还必须使用 rvprop 参数:

&rvprop=ids|flags|timestamp|user|userid|size|sha1|contentmodel|comment|parsedcomment|content|tags|parsetree|flagged

您可以找到 here 的所有可用参数的摘要。

这是在 C# 中获取完整维基百科页面修订历史的方法:

private static List<XElement> GetRevisions(string pageTitle)
{
    var url = "https://en.wikipedia.org/w/api.php?action=query&format=xml&prop=revisions&rvlimit=500&titles=" + pageTitle;
    var revisions = new List<XElement>();
    var next = string.Empty;
    while (true)
    {
        using (var webResponse = (HttpWebResponse)WebRequest.Create(url + next).GetResponse())
        {
            using (var reader = new StreamReader(webResponse.GetResponseStream()))
            {
                var xElement = XElement.Parse(reader.ReadToEnd());
                revisions.AddRange(xElement.Descendants("rev"));

                var cont = xElement.Element("continue");
                if (cont == null) break;

                next = "&rvcontinue=" + cont.Attribute("rvcontinue").Value;
            }
        }
    }

    return revisions;
}

目前“咖啡”返回10 414修订。


编辑:这是一个 Python 版本:

import urllib2
import re

def GetRevisions(pageTitle):
    url = "https://en.wikipedia.org/w/api.php?action=query&format=xml&prop=revisions&rvlimit=500&titles=" + pageTitle
    revisions = []                                        #list of all accumulated revisions
    next = ''                                             #information for the next request
    while True:
        response = urllib2.urlopen(url + next).read()     #web request
        revisions += re.findall('<rev [^>]*>', response)  #adds all revisions from the current request to the list

        cont = re.search('<continue rvcontinue="([^"]+)"', response)
        if not cont:                                      #break the loop if 'continue' element missing
            break

        next = "&rvcontinue=" + cont.group(1)             #gets the revision Id from which to start the next request

    return revisions;

你怎么看逻辑是完全一样的。与 C# 的不同之处在于,在 C# 中,我解析了 XML 响应,在这里我使用正则表达式匹配其中的所有 revcontinue 元素。

因此,我的想法是创建一个 main request,从中我将所有修订(最大值为 500)放入 revisions 数组。我还检查 continue xml 元素以了解是否有更多修订,获取 rvcontinue 属性的值并在 next 变量中使用它(对于第一个请求的此示例,它是 20150127211200|644458070 )以使 another request 进行下一个 500 次修订。我重复所有这些直到 continue 元素可用。如果它丢失了,这意味着在响应的修订列表中的最后一个之后没有更多的修订,所以我退出循环。

revisions = GetRevisions("Coffee")

print(len(revisions))
#10418

这是“Coffee”文章的最后 10 次修订(它们以相反的顺序从 API 返回),不要忘记,如果您需要更具体的修订信息,可以使用 rvprop请求中的参数。

for i in revisions[0:10]:
    print(i)

#<rev revid="698019402" parentid="698018324" user="Termininja" timestamp="2016-01-03T13:51:27Z" comment="short link" />
#<rev revid="698018324" parentid="697691358" user="AXRL" timestamp="2016-01-03T13:39:14Z" comment="/* See also */" />
#<rev revid="697691358" parentid="697690475" user="Zekenyan" timestamp="2016-01-01T05:31:33Z" comment="first coffee trade" />
#<rev revid="697690475" parentid="697272803" user="Zekenyan" timestamp="2016-01-01T05:18:11Z" comment="since country of origin is not first sighting of someone drinking coffee I have removed the origin section completely" />
#<rev revid="697272803" parentid="697272470" minor="" user="Materialscientist" timestamp="2015-12-29T11:13:18Z" comment="Reverted edits by [[Special:Contribs/Media3dd|Media3dd]] ([[User talk:Media3dd|talk]]) to last version by Materialscientist" />
#<rev revid="697272470" parentid="697270507" user="Media3dd" timestamp="2015-12-29T11:09:14Z" comment="/* External links */" />
#<rev revid="697270507" parentid="697270388" minor="" user="Materialscientist" timestamp="2015-12-29T10:45:46Z" comment="Reverted edits by [[Special:Contribs/89.197.43.130|89.197.43.130]] ([[User talk:89.197.43.130|talk]]) to last version by Mahdijiba" />
#<rev revid="697270388" parentid="697265765" user="89.197.43.130" anon="" timestamp="2015-12-29T10:44:02Z" comment="/* See also */" />
#<rev revid="697265765" parentid="697175433" user="Mahdijiba" timestamp="2015-12-29T09:45:03Z" comment="" />
#<rev revid="697175433" parentid="697167005" user="EvergreenFir" timestamp="2015-12-28T19:51:25Z" comment="Reverted 1 pending edit by [[Special:Contributions/2.24.63.78|2.24.63.78]] to revision 696892548 by Zefr: [[WP:CENTURY]]" />

关于python - 如何从某篇文章中获取完整的维基百科修订历史列表?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34411896/

相关文章:

复杂包结构中的 Python 导入语句?

javascript - Web 抓取提取 Javascript 表 Selenium+Python

wikipedia - 如何通过API获取维基百科电影分类信息?

python - 如何循环 JSON 数据中的值?

python - 如何求和值?

python - 新的 Django 中间件没有被调用

html - 使用 Selenium for Python 在网站上查找类名称中包含换行符的元素

javascript - 如何使用 python/scrapy 抓取网站上小部件的输出?

java - 从维基百科中提取数据

java - Java中是否有任何API可以访问维基百科数据