我想在 Hadoop 集群上同时运行多个作业,但我想阻止某些作业在该作业的所有映射任务完成之前开始缩减阶段(使缩减槽繁忙或保留)。 是否有任何配置可以像上面那样设置主题限制?
谢谢。
最佳答案
减少慢启动 默认情况下,调度程序会等待作业中 5% 的 map task 完成 为同一工作安排 reduce task 。对于大型作业,这可能会导致问题 集群利用率,因为它们在等待 map 任务时占用 reduce 槽 完全的。将 mapred.reduce.slowstart.completed.maps 设置为更高的值,例如 0.80 (80%),有助于提高吞吐量。
引用:Hadoop 权威指南第 3 版,第 9 章:“设置 Hadoop 集群”页面:316
关于hadoop - 有什么方法可以防止在所有 map task 完成之前 reduce task 开始,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22891547/