hadoop - 跳过失败的 map 作业

有没有办法跳过单个失败的 map 作业而不是杀死整个作业？我有数以千计的 map 作业都运行良好，总是有这个烦人的最后一个 map 作业会永远耗费并最终杀死这个大作业。

有没有办法设置像“失败时忽略”这样的一般设置或可以忽略的 map 百分比？

我不是在寻找 100% 数据的完美结果，95% 的良好估计就完全足够了。

最佳答案

您可以使用 mapred.max.map.failures.percent(新版本 2.1.0 中的 mapreduce.map.failures.maxpercent)和 mapred.max.reduce.failures.percent 属性来控制作业失败

关于hadoop - 跳过失败的 map 作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19441241/

相关文章：

hadoop - 计数并压扁 pig