python - 用scrapy一一爬取网站列表

标签 python screen-scraping web-crawler scrapy

我正在尝试使用 scrapy 抓取网站列表。我尝试将网站网址列表作为 start_urls,但后来我发现我无法承受如此多的内存。有没有办法设置scrapy一次抓取一个或两个网站?

最佳答案

您可以尝试使用concurrent_requests = 1,以免数据过载

http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests

关于python - 用scrapy一一爬取网站列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14297011/

相关文章:

json - 提供 API 是否有助于阻止屏幕抓取?

php - 抓取网页并检索 javascript 变量

python - 我正在尝试使用 Python 3.x 从亚马逊抓取评论,但一无所获

python - 如何使用pytest使用正确的参数调用测试函数?

python - 如何使用numpy将一个矩阵与另一个矩阵中的每一行相乘

asp.net - 抓取由 asp.net/AJAX (__doPostBack) 管理的 html 分页

python - 使用 Scrapy 串行爬取域

python - 将 Response 对象从引用者带入 parse_item 回调

python - 是否可以让 QWebKit 显示 pdf 文件?

python - 将字典的值及其计数转换为另一个字典