我正在从几千个页面中抓取数据,一般 URL 为:
http://example.com/database/?id=(some number)
我在其中运行 ID 号。
我不断遇到生成 500 内部服务器错误的大量 URL,并且 scrapy 出于某种原因多次遍历这些 block 。这会占用很多时间,所以我想知道是否有一种方法可以立即移动到下一个 URL 而不会多次发送 scrapy 发送请求。
最佳答案
重试 500 次错误的组件是 RetryMiddleware .
如果您不希望 Scrapy 重试收到 500 状态代码的请求,在您的 settings.py
中,您可以将 RETRY_HTTP_CODES
设置为不包括 500(默认为 [500, 502, 503, 504, 400, 408]
),或者使用 RETRY_ENABLED = False
参见 RetryMiddleware settings了解更多。
关于python - 如果我在 Scrapy 中收到 500 内部服务器错误,我该如何跳过该 URL?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23797421/