python - 在 scrapy 中启用 deltafetch

标签 python web-scraping scrapy

我在 scrapy 上做了一些工作,现在我的蜘蛛准备好了。但是现在我希望我的蜘蛛只抓取那些在之前的运行中没有抓取过的项目,并且只抓取新的内容。通过实现这一点,我可以减少蜘蛛的运行时间。

在研究这个的时候我遇到了deltafetch ,我认为这将满足我的要求。但我无法导入该功能。如果有人能指导我以明确定义的方式使用它,我会很高兴。

此外,如果有任何其他中间件可以达到类似的目的,我也很想知道。

最佳答案

使用标准工具:

pip install scrapylib

然后将其添加到您的项目 settings.py 中:

SPIDER_MIDDLEWARES = {
    'scrapylib.deltafetch.DeltaFetch': 100,
}

DELTAFETCH_ENABLED = True

关于python - 在 scrapy 中启用 deltafetch,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20045751/

相关文章:

python - 使用 beautifulsoup 通过 div 标签查找 div 文本

python - 如何使用 BeautifulSoup 保存页面中的所有图像?

python - Scrapy - 访问嵌套链接并从每个级别获取元数据

python - Scrapy 项目管道并行或顺序执行 process_item

python - pyqtgraph 文档示例不适用于 PySide

python - Python 在处理大量数字/列表时是否有问题,或者我的代码有问题?

Python - 何时使用文件与打开

python - 如何采样一个非常大的 CSV 文件(6GB)

web-scraping - Scrapy Shell 和 Scrapy Splash

python - 如何在抓取时获取html页面中的评论?