我有一个特别的 pig 工作,通常需要大约 12 分钟才能运行,但每天有几次它会卡在奇怪的状态。该作业有 6 个映射和 1 个 reduce 任务。它成功完成了第一个 map task ,然后它会“暂停”数小时(永远!)。作业跟踪器指示有 5 个 map 和 1 个 reduce 挂起,但是没有任务在运行。没有任务显示任何错误。 map task 将不会启动,但不会发生错误。
我如何找出任务没有开始的原因?
我已尝试提高作业的优先级,并且已验证有可用的 map 和 reduce 插槽。运行的一张 map 的任务日志看起来完全正常。是否有其他日志可以告诉我发生了什么?
我正在使用 Cloudera CDH4.5 和 MR1。小型集群有 5 个节点。
最佳答案
查看第一个 map task 的日志 - 它可能失败了。我遇到过很多情况,第一个 map 任务失败,但被报告为成功,并且后续的 map 任务都没有开始。
关于hadoop - 为什么挂起的 map task 没有启动?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21830524/