我们正在尝试实现Storm Crawler来爬取数据。我们已经能够从 URL 中找到子链接,但我们希望从这些子链接中获取内容。我找不到太多资源来指导我如何获得它?这方面的任何有用的链接/网站都会有所帮助。谢谢。
最佳答案
Getting Started , presentations and talks ,以及各种blog posts应该有用。
如果子链接被获取并解析(您可以在日志中检查),那么内容将可用于索引或存储,例如作为 WARC。有一个dummy indexer它将内容转储到控制台,可以将其作为起点,或者有用于在 Elasticsearch 或 SOLR 中索引文档的资源。 WARC module也可用于存储页面内容。
关于web-crawler - 使用 Storm Crawler 爬行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41359082/