web-crawler - 使用 Storm Crawler 爬行

标签 web-crawler apache-storm stormcrawler

我们正在尝试实现Storm Crawler来爬取数据。我们已经能够从 URL 中找到子链接,但我们希望从这些子链接中获取内容。我找不到太多资源来指导我如何获得它?这方面的任何有用的链接/网站都会有所帮助。谢谢。

最佳答案

Getting Started , presentations and talks ,以及各种blog posts应该有用。

如果子链接被获取并解析(您可以在日志中检查),那么内容将可用于索引或存储,例如作为 WARC。有一个dummy indexer它将内容转储到控制台,可以将其作为起点,或者有用于在 Elasticsearch 或 SOLR 中索引文档的资源。 WARC module也可用于存储页面内容。

关于web-crawler - 使用 Storm Crawler 爬行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41359082/

相关文章:

java - 自定义StormCrawler

linux - 如何从网址列表中提取电子邮件?

python - Scrapy:ImportError:没有名为 project_name.settings 的模块

html - 我如何使用 Perl 可靠地解析 QuakeLive 播放器配置文件?

java - Jedis "couldn' t get pool resource"on a Storm topology

java - Storm Bolt 始终记录到worker.log

java - 这个网络爬虫是做广度优先搜索还是深度优先搜索?

distributed-computing - STORM 中的主管

elasticsearch - 如何将内容和页面描述存储到 ElasticSearch

elasticsearch - 有没有办法将 `metadata.depth`值也添加到doc索引的字段中?