python - 如何设置 Scrapy Auto_Throttle 设置

标签 python web-scraping scrapy

我的用例是这样的:我有 10 个蜘蛛,并且全局 AUTO_THROTTLE_ENABLED 设置设置为 True。问题是,对于其中一个蜘蛛来说,没有自动节流的运行时间是4天,但是有自动节流的运行时间是40天......

我想找到一个平衡点,让蜘蛛在15天内运行(3倍于原来的数量)。今天早上我一直在阅读 scrapy 文档,但整件事让我很困惑。谁能告诉我如何在全局范围内保持自动 throttle 启用,并降低其 throttle 的数量?

最佳答案

如果有人在 2020 年以后仍然需要答案。您可以覆盖每个蜘蛛的任何全局设置: https://docs.scrapy.org/en/latest/topics/settings.html#settings-per-spider

关于python - 如何设置 Scrapy Auto_Throttle 设置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29754112/

相关文章:

python - scrapy中一一选择结果

ruby-on-rails-3 - 抓取表格分页数据

html - 使用 XPath 从网站中抓取伪元素

javascript - Scrapy Scraper 无法正确抓取图像

Python pandas 部分折叠二维矩阵

python - 根据索引和值填充 scipy/numpy 矩阵

java - 如何从(内部)https 页面抓取 html 内容

settings - 无法更改 Scrapy 设置

python - 包装子进程的标准输出/标准错误

python - 通过 SSH 传输 pickle 字节