java - 是否可以使用Java爬虫crawler4j暂停和恢复爬行?

标签 java web-scraping web-crawler crawler4j

我已经知道您可以将抓取配置为可恢复。

但是是否可以使用可恢复功能来暂停抓取过程,然后以编程方式恢复抓取?例如。我可以使用爬虫的关闭方法并将可恢复参数设置为true,优雅地shutdown爬行,然后再次开始爬行。

会这样吗,因为可恢复参数的主要目的是处理爬虫的意外崩溃。有没有其他或更好的方法来使用crawler4j实现此功能?

最佳答案

如果将参数 resumable 设置为 trueFrontier 以及 DocIdServer 会将其队列存储在用户定义的存储中文件夹。

这适用于崩溃或程序化关闭。在这两种情况下,存储文件夹必须相同。

另请参阅the related issue在官方问题跟踪器上

关于java - 是否可以使用Java爬虫crawler4j暂停和恢复爬行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46769101/

相关文章:

ios - 如何在iOS上使用XPath进行抓取?

java - 未处理的异常类型 URISyntaxException

youtube - 如何导出 YouTube channel 的所有视频列表(标题、URL 和发布日期)?

python - 重定向后的 Scrapy 回调

.net - NCrawler 示例/指南

java - jax-ws webservice 中的泛型类会发生什么变化?

java - 从 Web 浏览器检测客户端 jre

python - BeautifulSoup:提取不在给定标签中的文本

java - Spring LDAP 身份验证 NO_OBJECT

java - 如何结合 AngularJS 和 Thymeleaf 模板