python - 使用 urllib 和 BeautifulSoup 的随机 HTTP 503 错误

我正在抓取一个带有 cookie 的网站。他们提供了多个下拉菜单，我正在遍历每个选项并重新捕获每个请求的 session cookie。代码可以正常运行一段时间，但随机出现 503 错误。

我的代码将数据插入 PostgreSQL 数据库，为了帮助强调这个错误的随机性，我想分享一下，我在插入少至 1200 个条目(行)和多达 4200 个条目(行)后收到了 503。没有' 似乎是引发此异常的任何模式。我无法理解它。

如果有帮助，这是我的部分代码:

# -*- coding: utf-8 -*-

import scrape_tools
import psycopg2
import psycopg2.extras
import urllib
import urllib2
import json
import cookielib
import time


tools = scrape_tools.tool_box()
db = tools.db_connect()
psycopg2.extras.register_hstore(db)
cursor = db.cursor(cursor_factory = psycopg2.extras.RealDictCursor)

cookiejar = cookielib.CookieJar()
opener = urllib2.build_opener(
    urllib2.HTTPRedirectHandler(),
    urllib2.HTTPHandler(debuglevel=0),
    urllib2.HTTPSHandler(debuglevel=0),
    urllib2.HTTPCookieProcessor(cookiejar),
)

url ='http://www.website.com/'
soup = tools.request(url)

type_select = soup('select',{'id':'type'})
for option_tag in type_select:
    select_option = option_tag('option')
    for option_contents in select_option:
        if 'Select' in option_contents.contents[0]:
            continue
        type = option_contents.contents[0]
        type_val = option_contents['value']
        print 'Type', type

        get_more_url = 'http://www.website.com/' + type_val
        request2 = urllib2.Request(get_more_url)
        fp2 = opener.open(request2)
        html2_object = fp2.read()
        json_result = json.loads(html2_object)

        for json_dict in json_result:
            for json_key in json_dict:
                if len(json_key) == 0:
                    continue
                more_data = json_dict[json_key]
                print '   ', more_data

               (---Out of courtesy, I'll stop here--)

(*请注意，scrape_tools 是自定义模块)

我是否遗漏了 cookie 存储的内容？我错过了一些明显的东西吗？我似乎无法弄清楚为什么会这样。我已经“谷歌搜索”、“stackoverflowed”等几个小时试图找到有类似问题的人，但没有找到任何东西。

我过去也使用过 selenium 来抓取数据，并把它放在我的口袋里作为最后的手段，但这个项目是巨大的，我宁愿 Firefox 在一周内不占用服务器上的内存。

最佳答案

HTTP 状态 503，“服务不可用”，表示由于某种原因服务器无法处理您的请求——但这通常是暂时性错误。如果您稍等片刻并重试相同的请求，它可能会成功。

您确实需要能够处理大规模抓取作业中的这种 transient 故障，因为互联网上充满了 transient 错误。连接一直失败或断开。不过，您通常只需要一个简单的重试策略。

不过，状态 503 可能特别意味着您请求页面的速度太快。如果您在页面提取之间没有延迟，出于礼貌，您应该添加一个。

关于python - 使用 urllib 和 BeautifulSoup 的随机 HTTP 503 错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/13203480/

python - 使用 urllib 和 BeautifulSoup 的随机 HTTP 503 错误

上一篇：python - 使用 python with-statement 柯里化(Currying)？

下一篇：python - Python 2.7 中的自定义 JSON 编码器以插入纯 JavaScript 代码