java - 是否可以使用Java爬虫crawler4j暂停和恢复爬行？

我已经知道您可以将抓取配置为可恢复。

但是是否可以使用可恢复功能来暂停抓取过程，然后以编程方式恢复抓取？例如。我可以使用爬虫的关闭方法并将可恢复参数设置为true，优雅地shutdown爬行，然后再次开始爬行。

会这样吗，因为可恢复参数的主要目的是处理爬虫的意外崩溃。有没有其他或更好的方法来使用crawler4j实现此功能？

最佳答案

如果将参数 resumable 设置为 true，Frontier 以及 DocIdServer 会将其队列存储在用户定义的存储中文件夹。

这适用于崩溃或程序化关闭。在这两种情况下，存储文件夹必须相同。

另请参阅the related issue在官方问题跟踪器上

关于java - 是否可以使用Java爬虫crawler4j暂停和恢复爬行？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46769101/

相关文章：

ios - 如何在iOS上使用XPath进行抓取？