python - 重置暂停的抓取，Scrapy

标签 python linux scrapy

我知道通过命令:

scrapy crawl somespider -s JOBDIR=crawls/somespider-1

我可以使用 CTRL+C 暂停/恢复抓取。

我想知道的是如何重置 scrapy 并从头开始。是否有我需要删除/清空的文件？

M.

最佳答案

是的，你应该删除你的JOBDIR

scrapy crawl somespider -s JOBDIR=crawls/somespider-1
<ctr+C>
rm -rf crawls/somespider-1

关于python - 重置暂停的抓取，Scrapy，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36956410/

上一篇：linux - 如何调试 strace 中显示的 futex 争用？

下一篇：linux - YarnApplicationState : ACCEPTED: waiting for AM container to be allocated, 启动并注册

相关文章：

javascript - 使用 python 和 PyQt4 从 mlb.com 抓取数据而不渲染 javascript

python - 从python打开一个java JAR文件

linux - 完成 libftdi 中缺少的 .so 文件

python - Scrapy:所有的爬虫都失败了。有语法错误的爬虫

javascript - 如何将复选框设置为带有确认消息的按钮？

python - 使用正交积分

linux - distcc 和 arm 交叉编译

python - 正确使用 os.wait()？

python - Selenium 为未使用的蜘蛛运行 Firefox 驱动程序

python - 如何编辑 'formdata'来爬取Ajax动态页面？

©2024 IT工具网联系我们