hadoop - 跳过失败的 map 作业

标签 hadoop mapreduce apache-pig

有没有办法跳过单个失败的 map 作业而不是杀死整个作业?我有数以千计的 map 作业都运行良好,总是有这个烦人的最后一个 map 作业会永远耗费并最终杀死这个大作业。

有没有办法设置像“失败时忽略”这样的一般设置或可以忽略的 map 百分比?

我不是在寻找 100% 数据的完美结果,95% 的良好估计就完全足够了。

最佳答案

您可以使用 mapred.max.map.failures.percent(新版本 2.1.0 中的 mapreduce.map.failures.maxpercent)和 mapred.max.reduce.failures.percent 属性来控制作业失败

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/DeprecatedProperties.html

关于hadoop - 跳过失败的 map 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19441241/

相关文章:

hadoop - 计数并压扁 pig

java - Hive Hook 有没有 Spark Hook

Maven 无法解析 hadoop 项目的依赖项

hadoop - 如何调试map-reduce失败的地方?

hadoop - pig : field does not exist after join

hadoop - 将数据导入Hadoop

hadoop - 如果没有在hdfs-site.xml中定义,namenode和datanode安装在哪里?

hadoop - map 侧加入MR工作

hadoop - 如何从Cloudera导出元数据

hadoop - 如何使用 apache pig 在 hadoop 集群上加载文件?