web-crawler - 使用 Storm Crawler 爬行

我们正在尝试实现Storm Crawler来爬取数据。我们已经能够从 URL 中找到子链接，但我们希望从这些子链接中获取内容。我找不到太多资源来指导我如何获得它？这方面的任何有用的链接/网站都会有所帮助。谢谢。

最佳答案

如果子链接被获取并解析(您可以在日志中检查)，那么内容将可用于索引或存储，例如作为 WARC。有一个dummy indexer它将内容转储到控制台，可以将其作为起点，或者有用于在 Elasticsearch 或 SOLR 中索引文档的资源。 WARC module也可用于存储页面内容。

关于web-crawler - 使用 Storm Crawler 爬行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41359082/

相关文章：

java - 自定义StormCrawler