python - Scrapy 爬取速度慢(60 页/分钟)

标签 python http scrapy web-crawler

我的 scrapy 爬行速度很慢(大约 1 页/秒)。 我正在从 aws 服务器抓取一个主要网站,所以我认为这不是网络问题。 CPU 利用率远未接近 100,如果我启动多个 scrapy 进程,爬网速度会快得多。

Scrapy 好像爬了一堆页面,然后挂了几秒,然后重复。

我试过玩: CONCURRENT_REQUESTS = CONCURRENT_REQUESTS_PER_DOMAIN = 500

但这似乎并没有真正让指针超过 20。

最佳答案

您确定允许高速抓取目标站点吗?许多网站实现下载阈值,“一段时间后”开始响应缓慢。

关于python - Scrapy 爬取速度慢(60 页/分钟),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13505194/

相关文章:

http - gradle - 从 url 下载并解压文件

.htaccess - 网站HTTPS证书

azure - 当 key 是公开的时,Azure 函数 API key 有什么意义吗?

python - 为什么我的 Scrapy 代码返回一个空数组?

python - 根据费马小定理解释代码以检查素数

python - 连接重置错误: [WinError 10054] An existing connection was forcibly closed by the remote host (while accessing Gmail emails)

php - PHP 中 Python 的 *Args 和 **kwargs 是什么?

python - Django 应用程序安装脚本 - 如何将应用程序添加到 INSTALLED_APPS 设置?

python - 如何在 heroku 中的 rails 应用程序中运行 python 脚本?

python - 如何在 python 中将 url 编码的字符串转换为正确的 unicode 字符串