apache - 在 hadoop 集群上使用 HBase 设置 Nutch 2.2.1

标签 apache hadoop web-crawler hbase nutch

我已引用本教程 ( http://wiki.apache.org/nutch/Nutch2Tutorial ) 来设置 Nutch 2.2.1.with Hbase。我已经完成了教程中给出的设置，但是没有明确提到如何爬取数据并将数据存储到Hbase表中。

你能给我推荐一些相关的链接/书籍吗？

最佳答案

对我最有帮助的是:

http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.html

映射到 hbase 定义在这里 NUTCH_HOME/conf/gora-hbase-mapping.xml。因此，如果一切配置正确，抓取脚本应该为您存储它。

我有相同的配置，但在运行时遇到了很多问题，这里有一些提示:

技巧一:注意表名

我还配置了这些属性:

<property>
  <name>storage.schema.webpage</name>
  <value>webpage</value>
</property>

<property>
  <name>storage.crawl.id</name>
  <value>babu</value>
</property>

当您在脚本中提供参数 -crawlId 时，此配置会将数据抓取到 hbase 中的 babu_webpage 表中，编写简单的 'babu' -> $CRAWL_ID。

$bin/nutch fetch $commonOptions -D fetcher.timelimit.mins=$timeLimitFetch $batchId -crawlId $CRAWL_ID -threads 50

提示 2:如果您的表名错误，Nutch 仍然会在控制台成功写入。

技巧三:如何简单的查看hbase中是否有爬取的东西:

转到./bin/hbase shell

list
scan 'babu_webpage'

关于apache - 在 hadoop 集群上使用 HBase 设置 Nutch 2.2.1，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21135495/

上一篇：hadoop - Pig : How to send all Tuples to a UDF to be Processed without Grouping them? 或者如何在不分组的情况下将元组转换为包？

下一篇：hadoop - 如何将文件放在目录名称中有空格的 hdfs 目录中？

相关文章：

python - 使用 scrapy 进行网页抓取论坛不会产生下一页

apache - 使用 mod_jk 启动 apache 2.4 时出错

java - 如何在 hadoop 文件系统上为 Java 程序设置类路径

Python Scrapy - 从 mysql 填充 start_urls

mysql - Sqoop 语法错误，意外的 tIdentifier

hadoop - 如何清除hadoop fifo队列？

python - 我怎样才能使这个递归爬行函数迭代？

php - htaccess : redirect an image path to a PHP script

apache - 从 Apache 日志中排序 uniq IP 地址

php - 在旧的 apache 安装上使用 PHP 5.3