如果我使用 Oozie 运行 MapReduce 作业,是否有关于将启动多少个映射器的具体数字? 是吗:
- 一个用于 Oozie,一个用于 Map-Reduce 作业,或者
- 一个用于 Oozie,每个 64MB block (默认 block 大小)一个映射器
最佳答案
以上答案重点关注需要多少个映射并减少一个 MapReduce 作业的需求。不过,当您具体询问 Oozie 时,我将通过 Oozie 分享我在 MapReduce(在 Pig 中)的经验。
说明
当您启动 oozie 工作流程时,您需要 1 个 yarn 应用程序。我不确定逻辑是什么,但似乎这些应用程序通常需要 1 个 map ,有时需要 2 个。
除了上述之外,您仍然需要相同数量的映射器和化简器来完成实际工作,就好像您没有使用 oozie 一样。 (如果您看到的数字与预期不同,这可能是因为您在调用脚本时在映射或化简属性上传递了特定参数)。
警告
上述意味着,如果您有 100 个可用容器,并启动 100 个工作流程(例如,通过开始日期为过去 100 天的日常作业),这些工作流程很可能会占用所有可用容器容器,实际工作无限期暂停。
关于hadoop - 通过 Oozie 进行 Map-Reduce,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38719874/