hadoop - 如何在 hadoop 流中跳过失败的 map task

标签 hadoop mapreduce hadoop-streaming

我正在运行一个 hadoop 流式 mapreduce 作业，它总共有 26895 个映射任务。但是，处理特定输入的任务总是失败。所以我设置了mapreduce.map.failures.maxpercent=1，想跳过失败的任务，但是作业还是没有成功。

Kind % Complete  Num Tasks  Pending Running Complete    Killed  Failed/Killed Task Attempts

map     100.00%   26895     0       0       26894       1       8 / 44

reduce  100.00%       1     0       0       0           1       0 / 1

我怎样才能跳过这个？

最佳答案

同样有一个配置可用。在 mapred-site.xml 中指定 mapred.max.map.failures.percent 和 mapred.max.reduce.failures.percent 以指定失败阈值。两者都设置为 0。

这些属性现已弃用，为此目的使用以下属性

mapreduce.map.failures.maxpercent
mapreduce.reduce.failures.maxpercent

关于hadoop - 如何在 hadoop 流中跳过失败的 map task ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28731304/

上一篇：hadoop - Spark 是否支持静态加密？

下一篇：hadoop - Falcon 在 Hadoop 生态系统中的作用

相关文章：

database - 一种将结果从 Pig 导出到数据库的方法

mongodb - Hive 需要很长时间才能进行 limit 1 查询

hadoop - 如何让配置单元同时运行 mapreduce 作业？

java - MapReduce中的分割方法

hadoop - 重复的任务被杀死

ruby - 使用 RVM 的 Hadoop Streaming 找不到 Gem

java - Spring Boot应用程序无法启动可能是由于依赖关系

performance - MongoDB 映射减少 : Emit key from array based on condition

hadoop - hadoop 配置中 mapred.tasktracker.tasks.maximum 的默认值是多少

ubuntu - 安装配置单元后的 Hadoop(本地和主机目标不匹配)