我在 scrapy
上做了一些工作,现在我的蜘蛛准备好了。但是现在我希望我的蜘蛛只抓取那些在之前的运行中没有抓取过的项目,并且只抓取新的内容。通过实现这一点,我可以减少蜘蛛的运行时间。
在研究这个的时候我遇到了deltafetch ,我认为这将满足我的要求。但我无法导入该功能。如果有人能指导我以明确定义的方式使用它,我会很高兴。
此外,如果有任何其他中间件可以达到类似的目的,我也很想知道。
最佳答案
使用标准工具:
pip install scrapylib
然后将其添加到您的项目 settings.py 中:
SPIDER_MIDDLEWARES = {
'scrapylib.deltafetch.DeltaFetch': 100,
}
DELTAFETCH_ENABLED = True
关于python - 在 scrapy 中启用 deltafetch,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/20045751/