hadoop - 通过 Oozie 进行 Map-Reduce

标签 hadoop mapreduce oozie oozie-coordinator

如果我使用 Oozie 运行 MapReduce 作业,是否有关于将启动多少个映射器的具体数字? 是吗:

  1. 一个用于 Oozie,一个用于 Map-Reduce 作业,或者
  2. 一个用于 Oozie,每个 64MB block (默认 block 大小)一个映射器

最佳答案

以上答案重点关注需要多少个映射并减少一个 MapReduce 作业的需求。不过,当您具体询问 Oozie 时,我将通过 Oozie 分享我在 MapReduce(在 Pig 中)的经验。

说明

当您启动 oozie 工作流程时,您需要 1 个 yarn 应用程序。我不确定逻辑是什么,但似乎这些应用程序通常需要 1 个 map ,有时需要 2 个。

除了上述之外,您仍然需要相同数量的映射器和化简器来完成实际工作,就好像您没有使用 oozie 一样。 (如果您看到的数字与预期不同,这可能是因为您在调用脚本时在映射或化简属性上传递了特定参数)。

警告

上述意味着,如果您有 100 个可用容器,并启动 100 个工作流程(例如,通过开始日期为过去 100 天的日常作业),这些工作流程很可能会占用所有可用容器容器,实际工作无限期暂停。

关于hadoop - 通过 Oozie 进行 Map-Reduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38719874/

相关文章:

shell - 如何在 Oozie 中使用配置单元操作运行 shell 脚本?

shell - 在 oozie 工作流 (HUE) 中,如何将参数从 shell 操作传递到 HDFS fs 操作

hadoop - "merge"在 MapReduce 中是什么意思?

java - 如何使用 MultipleInputs 在映射器中获取文档 ID

hadoop - 有和没有reducer的map-reduce工作时间之间的比较

hadoop - 容量调度器

hadoop - Hive 操作失败,主类 [org.apache.oozie.action.hadoop.HiveMain],退出代码 [40000]

java - reduce 阶段的输入不是我在 Hadoop (Java) 中所期望的

java - 在mac上安装hadoop时出错

hadoop - 如果 2 个映射器输出相同的键,reducer 的输入是什么?