java - 分布式模式下的 Apache nutch 不会从网络爬取

标签 java hadoop solr nutch

我正在使用 apache nutch 2.3、hadoop 1.2.1(3 个数据节点)、hbase 0.94、solr 4.8。为了运行 apache nutch 是分布式模式。我按照以下步骤进行

  • 转到运行时/部署目录
  • 将 apache-nutch-2.3.jar 复制到部署目录
  • 运行此命令 运行时/部署/bin/crawl urls/hbase_table http://solrHost:8983/solr 1

  • 其中 hbase_table 是 nutch 将存储数据的 hbase 表的名称。
    命令启动后,每个 phbase 的 Mapreduce 作业都会启动,即注入(inject)、生成、fetech、dedup、sorlrindex。所有这些 mapreduce 作业都没有任何错误地完成。但是当我从 HDFS 检查时,hbase_table 中没有数据。配置问题出在哪里。不幸的是,分布式模式指南中的 Apache nutch 并不完全可用(根据我的搜索)

    最佳答案

    我也有同样的问题,但是软件版本有点新。看到这篇文章Nutch Solr dataimport handler?

    作为一种解决方法,您可以通过打开 hbase shell 并运行这些命令来计算 hbase 中的记录

    > list (this will make sure the table is getting created.)
    > count 'hbase_table' (this will give you records in it.)
    

    或者,而不是将所有命令作为批处理运行,尝试单独运行它们。
    否则您可以粘贴日志文件。

    关于java - 分布式模式下的 Apache nutch 不会从网络爬取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34412927/

    相关文章:

    java - 为什么循环要额外迭代一次?

    java - Parquet writer : org. apache.parquet.io.ParquetEncodingException:写入空页

    java - xml 格式的 solr 响应

    hadoop - HORTONWORKS-Hbase/Phoenix-WALEditCodec-缺少

    java - 如何实现输入表单自动填写

    solr : highlighting : hl. simple.pre/post 有时不会出现

    java - 为什么 Spring 在 TransactionSynchronization 接口(interface)中没有回滚方法?

    Java 重命名正常文件的问题。我想将给定名称重命名为新文件名

    java - 错误: Cannot fit requested classes in a single dex file (# methods: 67451 > 65536)

    hadoop - 将文件列表 (JSON) 转换为数据框