我正在使用 apache nutch 2.3、hadoop 1.2.1(3 个数据节点)、hbase 0.94、solr 4.8。为了运行 apache nutch 是分布式模式。我按照以下步骤进行
其中 hbase_table 是 nutch 将存储数据的 hbase 表的名称。
命令启动后,每个 phbase 的 Mapreduce 作业都会启动,即注入(inject)、生成、fetech、dedup、sorlrindex。所有这些 mapreduce 作业都没有任何错误地完成。但是当我从 HDFS 检查时,hbase_table 中没有数据。配置问题出在哪里。不幸的是,分布式模式指南中的 Apache nutch 并不完全可用(根据我的搜索)
最佳答案
我也有同样的问题,但是软件版本有点新。看到这篇文章Nutch Solr dataimport handler?
作为一种解决方法,您可以通过打开 hbase shell 并运行这些命令来计算 hbase 中的记录
> list (this will make sure the table is getting created.)
> count 'hbase_table' (this will give you records in it.)
或者,而不是将所有命令作为批处理运行,尝试单独运行它们。
否则您可以粘贴日志文件。
关于java - 分布式模式下的 Apache nutch 不会从网络爬取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34412927/