hadoop - Apache Nutch 2.3 : won't inject urls (hangs) & hadoop log shows warning

我一直在尝试使用 Elasticsearch 5.4 设置 Nutch 2.3。问题出在 Nutch 中，因为我无法让它注入(inject)我的网址。 hadoop 日志显示以下警告:

安慰:

aurora apache-nutch-2.3.1 # runtime/local/bin/nutch inject urls/seed.txt
InjectorJob: starting at 2017-06-14 17:08:28
InjectorJob: Injecting urlDir: urls/seed.txt

**它卡在这里**

和

Hadoop日志:

aurora apache-nutch-2.3.1 # cat runtime/local/logs/hadoop.log 
2017-06-14 17:08:28,339 INFO  crawl.InjectorJob - InjectorJob: starting at 2017-06-14 17:08:28
2017-06-14 17:08:28,340 INFO  crawl.InjectorJob - InjectorJob: Injecting urlDir: urls/seed.txt
2017-06-14 17:08:28,992 WARN  util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

我已经尝试在这个线程( Hadoop "Unable to load native-hadoop library for your platform" warning )之后设置我的 Hadoop 环境变量，但我仍然遇到同样的错误。

有任何想法吗？

最佳答案

不要担心警告。而且我相信您在 Linux 发行版上运行

Nutch2.3 与 ES 5.x 不兼容。我编写了一个自定义 IndexWriter，它在给定端口调用 Logstash，而后者又调用 Elastic Search。您可以尝试这种方法或其他方法。

关于hadoop - Apache Nutch 2.3 : won't inject urls (hangs) & hadoop log shows warning，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44708292/

上一篇：postgresql - 无法从WebStorm(JetBrains)访问以docker-compose运行的Postgres

下一篇：Docker 看不到所有磁盘 - 设备上没有剩余空间

web-crawler - 在 nutch 中禁用 robots.txt 检查

hadoop - Hadoop 中键的数量限制是多少？

hadoop - pig : count of each product in distinctive Locations

hadoop - Nutch 2.3.1 只爬取种子URL

url - 查找域及其子域中的所有网页

scala - 退出状态:-100。诊断:容器在“丢失”节点上释放

java - 错误 : java. lang.IllegalArgumentException:即使使用变通方法，比较方法也违反了其一般约定

hadoop - 并行停用多个 Hadoop DataNode

java - 使用自定义文件配置 EMR 节点