hadoop - 为什么挂起的 map task 没有启动?

标签 hadoop apache-pig cloudera

我有一个特别的 pig 工作,通常需要大约 12 分钟才能运行,但每天有几次它会卡在奇怪的状态。该作业有 6 个映射和 1 个 reduce 任务。它成功完成了第一个 map task ,然后它会“暂停”数小时(永远!)。作业跟踪器指示有 5 个 map 和 1 个 reduce 挂起,但是没有任务在运行。没有任务显示任何错误。 map task 将不会启动,但不会发生错误。

我如何找出任务没有开始的原因?

我已尝试提高作业的优先级,并且已验证有可用的 map 和 reduce 插槽。运行的一张 map 的任务日志看起来完全正常。是否有其他日志可以告诉我发生了什么?

我正在使用 Cloudera CDH4.5 和 MR1。小型集群有 5 个节点。

最佳答案

查看第一个 map task 的日志 - 它可能失败了。我遇到过很多情况,第一个 map 任务失败,但被报告为成功,并且后续的 map 任务都没有开始。

关于hadoop - 为什么挂起的 map task 没有启动?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21830524/

相关文章:

hadoop - 访问hadoop分布式缓存中的文件

azure - 如何在hdfs中启用校验和值?

xml - 可以将 HCatalog 与 XML 一起使用吗? -- 在 Cloudera VM 上执行 ETL

shell - 使用 OOZIE 将文件从 HDFS 一个目录移动到 HDFS 中的另一个目录?

hadoop - 在java代码中找到hive-site.xml的位置

hadoop - WebHDFS 和 SequenceFiles

hadoop - FANMOD - 使用 Hadoop/MapReduce 进行子图搜索

hadoop - 如何从 Pig 中的关系生成自定义模式?

hadoop - Cassandra pig 插入异常

hadoop - 我们如何在 Hadoop 中导入视频或音频或图像,并可以做进一步的分析。