python - 用scrapy一一爬取网站列表

标签 python screen-scraping web-crawler scrapy

我正在尝试使用 scrapy 抓取网站列表。我尝试将网站网址列表作为 start_urls，但后来我发现我无法承受如此多的内存。有没有办法设置scrapy一次抓取一个或两个网站？

最佳答案

您可以尝试使用concurrent_requests = 1，以免数据过载

http://doc.scrapy.org/en/latest/topics/settings.html#concurrent-requests

关于python - 用scrapy一一爬取网站列表，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/14297011/

上一篇：python - Tkinter:根上的滚动条而不是另一个窗口

下一篇：python scipy lesssq 适合复数

相关文章：

json - 提供 API 是否有助于阻止屏幕抓取？

php - 抓取网页并检索 javascript 变量

python - 我正在尝试使用 Python 3.x 从亚马逊抓取评论，但一无所获

python - 如何使用pytest使用正确的参数调用测试函数？

python - 如何使用numpy将一个矩阵与另一个矩阵中的每一行相乘

asp.net - 抓取由 asp.net/AJAX (__doPostBack) 管理的 html 分页

python - 使用 Scrapy 串行爬取域

python - 将 Response 对象从引用者带入 parse_item 回调

python - 是否可以让 QWebKit 显示 pdf 文件？

python - 将字典的值及其计数转换为另一个字典

©2024 IT工具网联系我们