java - 什么决定了给定一组指定数据要使用的映射器/缩减器的数量

标签 java hadoop mapreduce

<分区>

决定为给定数据集使用多少映射器和缩减器以实现最佳性能的因素是什么?我说的是 Apache Hadoop Map Reduce 平台。

最佳答案

根据 Cloudera blog

Have you set the optimal number of mappers and reducers?
The number of mappers is by default set to one per HDFS block. This is usually a good default, but see tip 2.
The number of reducers is best set to be the number of reduce slots in the cluster (minus a few to allow for failures). This allows the reducers to complete in a single wave.

关于java - 什么决定了给定一组指定数据要使用的映射器/缩减器的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12932044/

相关文章:

hadoop - Apache Pig 分位数分组

hadoop - spark sc.textfile 的详细工作原理是什么?

hadoop - 如何在Hadoop中查看Map Task的内存占用

mapreduce - 如何限制每个执行器并发map任务的数量?

xml - 在单节点模式下设置 hadoop 时出现问题。

java - 如何选择由脚本 selenium webdriver 生成的元素

java - 多源特定消息聚合和重定向到目的地的 Camel 模式

hadoop - 通过子查询或联接配置Hive SQL平均表

java - 使用java重新启动远程计算机

java - java中如何连接数组中的字符串