hadoop - Apache Nutch 2.3 : won't inject urls (hangs) & hadoop log shows warning

标签 hadoop nutch

我一直在尝试使用 Elasticsearch 5.4 设置 Nutch 2.3。问题出在 Nutch 中,因为我无法让它注入(inject)我的网址。 hadoop 日志显示以下警告:

安慰:

aurora apache-nutch-2.3.1 # runtime/local/bin/nutch inject urls/seed.txt
InjectorJob: starting at 2017-06-14 17:08:28
InjectorJob: Injecting urlDir: urls/seed.txt

**它卡在这里**



Hadoop日志:
aurora apache-nutch-2.3.1 # cat runtime/local/logs/hadoop.log 
2017-06-14 17:08:28,339 INFO  crawl.InjectorJob - InjectorJob: starting at 2017-06-14 17:08:28
2017-06-14 17:08:28,340 INFO  crawl.InjectorJob - InjectorJob: Injecting urlDir: urls/seed.txt
2017-06-14 17:08:28,992 WARN  util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

我已经尝试在这个线程( Hadoop "Unable to load native-hadoop library for your platform" warning )之后设置我的 Hadoop 环境变量,但我仍然遇到同样的错误。

有任何想法吗?

最佳答案

  • 不要担心警告。而且我相信您在 Linux 发行版上运行
  • Nutch2.3 与 ES 5.x 不兼容。我编写了一个自定义 IndexWriter,它在给定端口调用 Logstash,而后者又调用 Elastic Search。您可以尝试这种方法或其他方法。
  • 关于hadoop - Apache Nutch 2.3 : won't inject urls (hangs) & hadoop log shows warning,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44708292/

    相关文章:

    java.lang.NullPointerException(nutch 2.2.1 和 MySql 作为数据存储)

    web-crawler - 在 nutch 中禁用 robots.txt 检查

    hadoop - Hadoop 中键的数量限制是多少?

    hadoop - pig : count of each product in distinctive Locations

    hadoop - Nutch 2.3.1 只爬取种子URL

    url - 查找域及其子域中的所有网页

    scala - 退出状态:-100。诊断:容器在“丢失”节点上释放

    java - 错误 : java. lang.IllegalArgumentException:即使使用变通方法,比较方法也违反了其一般约定

    hadoop - 并行停用多个 Hadoop DataNode

    java - 使用自定义文件配置 EMR 节点