我已引用本教程 ( http://wiki.apache.org/nutch/Nutch2Tutorial ) 来设置 Nutch 2.2.1.with Hbase。我已经完成了教程中给出的设置,但是没有明确提到如何爬取数据并将数据存储到Hbase表中。
你能给我推荐一些相关的链接/书籍吗?
最佳答案
对我最有帮助的是:
http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.html
映射到 hbase 定义在这里 NUTCH_HOME/conf/gora-hbase-mapping.xml。 因此,如果一切配置正确,抓取脚本应该为您存储它。
我有相同的配置,但在运行时遇到了很多问题,这里有一些提示:
技巧一:注意表名
我还配置了这些属性:
<property>
<name>storage.schema.webpage</name>
<value>webpage</value>
</property>
<property>
<name>storage.crawl.id</name>
<value>babu</value>
</property>
当您在脚本中提供参数 -crawlId 时,此配置会将数据抓取到 hbase 中的 babu_webpage 表中,编写简单的 'babu' -> $CRAWL_ID。
$bin/nutch fetch $commonOptions -D fetcher.timelimit.mins=$timeLimitFetch $batchId -crawlId $CRAWL_ID -threads 50
提示 2:如果您的表名错误,Nutch 仍然会在控制台成功写入。
技巧三:如何简单的查看hbase中是否有爬取的东西:
转到./bin/hbase shell
list
scan 'babu_webpage'
关于apache - 在 hadoop 集群上使用 HBase 设置 Nutch 2.2.1,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21135495/