python - 重置暂停的抓取,Scrapy

标签 python linux scrapy

我知道通过命令:

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

我可以使用 CTRL+C 暂停/恢复抓取。

我想知道的是如何重置 scrapy 并从头开始。是否有我需要删除/清空的文件?

M.

最佳答案

是的,你应该删除你的JOBDIR

scrapy crawl somespider -s JOBDIR=crawls/somespider-1
<ctr+C>
rm -rf crawls/somespider-1

关于python - 重置暂停的抓取,Scrapy,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36956410/

相关文章:

javascript - 使用 python 和 PyQt4 从 mlb.com 抓取数据而不渲染 javascript

python - 从python打开一个java JAR文件

linux - 完成 libftdi 中缺少的 .so 文件

python - Scrapy:所有的爬虫都失败了。有语法错误的爬虫

javascript - 如何将复选框设置为带有确认消息的按钮?

python - 使用正交积分

linux - distcc 和 arm 交叉编译

python - 正确使用 os.wait()?

python - Selenium 为未使用的蜘蛛运行 Firefox 驱动程序

python - 如何编辑 'formdata'来爬取Ajax动态页面?