Hadoop-2.5.1 + Nutch-2.2.1 : Found interface org. apache.hadoop.mapreduce.TaskAttemptContext,但类是预期的

标签 hadoop solr nutch

命令:./crawl/urls/mydir XXXXX 2

在Hadoop-2.5.1和Nutch-2.2.1中运行该命令时,出现如下错误信息。

14/10/07 19:58:10 INFO mapreduce.Job:正在运行的作业:job_1411692996443_0016
14/10/07 19:58:17 INFO mapreduce.Job:作业 job_1411692996443_0016 在 super 模式下运行:false 14/10/07 19:58:17 INFO mapreduce.Job:map 0% reduce 0%
14/10/07 19:58:21 INFO mapreduce.Job:任务 ID:attempt_1411692996443_0016_m_000000_0,状态:失败
错误:找到接口(interface) org.apache.hadoop.mapreduce.TaskAttemptContext,但类是预期的
14/10/07 19:58:26 INFO mapreduce.Job:任务 ID:attempt_1411692996443_0016_m_000000_1,状态:失败
错误:找到接口(interface) org.apache.hadoop.mapreduce.TaskAttemptContext,但需要类 14/10/07 19:58:31 INFO mapreduce.Job:任务 ID:attempt_1411692996443_0016_m_000000_2,状态:失败
错误:找到接口(interface) org.apache.hadoop.mapreduce.TaskAttemptContext,但需要类 14/10/07 19:58:36 INFO mapreduce.Job: map 100% 减少 0% 14/10/07 19:58:36 INFO mapreduce.Job:作业 job_1411692996443_0016 失败,状态为 FAILED,原因是:任务失败 task_1411692996443_0016_m_000000
由于任务失败,作业失败。 failedMaps:1 failedReduces:0
14/10/07 19:58:36 INFO mapreduce.Job:计数器:12

Job Counters 
    Failed map tasks=4
    Launched map tasks=4
    Other local map tasks=3
    Data-local map tasks=1
    Total time spent by all maps in occupied slots (ms)=11785
    Total time spent by all reduces in occupied slots (ms)=0
    Total time spent by all map tasks (ms)=11785
    Total vcore-seconds taken by all map tasks=11785
    Total megabyte-seconds taken by all map tasks=12067840
Map-Reduce Framework
    CPU time spent (ms)=0
    Physical memory (bytes) snapshot=0
    Virtual memory (bytes) snapshot=0

14/10/07 19:58:36 错误 crawl.InjectorJob: InjectorJob: java.lang.RuntimeException: job failed: name=[/mydir]inject/urls, jobid=job_1411692996443_0016

at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:55)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:233)
at org.apache.nutch.crawl.InjectorJob.inject(InjectorJob.java:251)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:273)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.crawl.InjectorJob.main(InjectorJob.java:282)
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
at java.lang.reflect.Method.invoke(Method.java:483)
at org.apache.hadoop.util.RunJar.main(RunJar.java:212)

最佳答案

可能您正在使用使用 Hadoop 1(来自 maven 存储库?)编译的 Gora(或其他)。您可以下载 Gora(0.5?)并使用 Hadoop 2 构建它。

也许这只是一系列问题中的第一个麻烦。 请通知我们您 future 的步骤。

关于Hadoop-2.5.1 + Nutch-2.2.1 : Found interface org. apache.hadoop.mapreduce.TaskAttemptContext,但类是预期的,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26236112/

相关文章:

solr - 如何指示 ExtractingRequestHandler 仅解析文档的正文?

java - 如何在 Solr 中提供就地自动更正?

solr - 如果我们要用Hadoop和Solr做一个搜索引擎,NUTCH的作用是什么?

hadoop - 是否可以查看 hive 删除表的历史记录或周边的详细信息?

java - Oozie Spark-submit, `--driver-cores` 参数不起作用

hadoop - 使用 keytab 提交 oozie 作业

java - 如何使用 Solr/Lucene 序列化/反序列化 map ?

logging - hadoop 2.2.0事件namenode会删除编辑日志吗?

apache - Nutch 2.1 urls 注入(inject)需要永远

java - Elasticsearch 索引后执行外部操作