我已经知道您可以将抓取配置为可恢复。
但是是否可以使用可恢复功能来暂停抓取过程,然后以编程方式恢复抓取?例如。我可以使用爬虫的关闭方法并将可恢复参数设置为true
,优雅地shutdown
爬行,然后再次开始爬行。
会这样吗,因为可恢复参数的主要目的是处理爬虫的意外崩溃。有没有其他或更好的方法来使用crawler4j实现此功能?
最佳答案
如果将参数 resumable 设置为 true
,Frontier
以及 DocIdServer
会将其队列存储在用户定义的存储中文件夹。
这适用于崩溃或程序化关闭。在这两种情况下,存储文件夹必须相同。
另请参阅the related issue在官方问题跟踪器上
关于java - 是否可以使用Java爬虫crawler4j暂停和恢复爬行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46769101/