hadoop - 有什么方法可以防止在所有 map task 完成之前 reduce task 开始

标签 hadoop mapreduce

我想在 Hadoop 集群上同时运行多个作业,但我想阻止某些作业在该作业的所有映射任务完成之前开始缩减阶段(使缩减槽繁忙或保留)。 是否有任何配置可以像上面那样设置主题限制?

谢谢。

最佳答案

减少慢启动 默认情况下,调度程序会等待作业中 5% 的 map task 完成 为同一工作安排 reduce task 。对于大型作业,这可能会导致问题 集群利用率,因为它们在等待 map 任务时占用 reduce 槽 完全的。将 mapred.reduce.slowstart.completed.maps 设置为更高的值,例如 0.80 (80%),有助于提高吞吐量。

引用:Hadoop 权威指南第 3 版,第 9 章:“设置 Hadoop 集群”页面:316

关于hadoop - 有什么方法可以防止在所有 map task 完成之前 reduce task 开始,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22891547/

相关文章:

Hadoop:HDFS 文件写入和读取

python - 在Python中使用Map-Reduce实现ARIMA或Holt Winter的

hadoop - 具有本地目录输入和 HBase 输出的脚本化 MapReduce

hadoop - 按 Pig Latin 中的最后一列过滤 - 当未指定架构时

hadoop - 使用直线自动登录

sql - 在同一字段上的表上进行双重连接

exception - Hadoop Connect异常

java - 执行Map-Reduce程序时出错

hadoop - isSplittable() 方法

hadoop - 如何在Mapreduce中编写伪代码?