apache - 在 hadoop 集群上使用 HBase 设置 Nutch 2.2.1

标签 apache hadoop web-crawler hbase nutch

我已引用本教程 ( http://wiki.apache.org/nutch/Nutch2Tutorial ) 来设置 Nutch 2.2.1.with Hbase。我已经完成了教程中给出的设置,但是没有明确提到如何爬取数据并将数据存储到Hbase表中。

你能给我推荐一些相关的链接/书籍吗?

最佳答案

对我最有帮助的是:

http://sujitpal.blogspot.cz/2011/01/exploring-nutch-20-hbase-storage.html

映射到 hbase 定义在这里 NUTCH_HOME/conf/gora-hbase-mapping.xml。 因此,如果一切配置正确,抓取脚本应该为您存储它。

我有相同的配置,但在运行时遇到了很多问题,这里有一些提示:

技巧一:注意表名

我还配置了这些属性:

<property>
  <name>storage.schema.webpage</name>
  <value>webpage</value>
</property>

<property>
  <name>storage.crawl.id</name>
  <value>babu</value>
</property>

当您在脚本中提供参数 -crawlId 时,此配置会将数据抓取到 hbase 中的 babu_webpage 表中,编写简单的 'babu' -> $CRAWL_ID。

$bin/nutch fetch $commonOptions -D fetcher.timelimit.mins=$timeLimitFetch $batchId -crawlId $CRAWL_ID -threads 50

提示 2:如果您的表名错误,Nutch 仍然会在控制台成功写入。

技巧三:如何简单的查看hbase中是否有爬取的东西:

转到./bin/hbase shell

list
scan 'babu_webpage'

关于apache - 在 hadoop 集群上使用 HBase 设置 Nutch 2.2.1,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21135495/

相关文章:

python - 使用 scrapy 进行网页抓取论坛不会产​​生下一页

apache - 使用 mod_jk 启动 apache 2.4 时出错

java - 如何在 hadoop 文件系统上为 Java 程序设置类路径

Python Scrapy - 从 mysql 填充 start_urls

mysql - Sqoop 语法错误,意外的 tIdentifier

hadoop - 如何清除hadoop fifo队列?

python - 我怎样才能使这个递归爬行函数迭代?

php - htaccess : redirect an image path to a PHP script

apache - 从 Apache 日志中排序 uniq IP 地址

php - 在旧的 apache 安装上使用 PHP 5.3