hadoop - 2 即使输入小于 block 大小,Map 任务也会启动,什么决定了 Map 任务的数量?

标签 hadoop mapreduce hdfs

我在 EC2 微型实例上运行单机 Hadoop 设置。 我写了一个简单的 wordcount 程序,没有明确指定应该运行的 Map 或 Reduce 任务的数量,输入文件小于 1MB。 本例中启动的Map Task数量为2,为什么?

如果我使用 conf.setNumMapTasks(1),那么只会启动 1 个 map 。

即使输入文件 <1MB,M/R 如何决定需要 2 个 Map 任务?

最佳答案

每个作业的默认 map task 数为 2。即“mapred.map.tasks”属性的默认值为 2。

在此处验证文档: http://hadoop.apache.org/docs/r1.0.4/mapred-default.html

关于hadoop - 2 即使输入小于 block 大小,Map 任务也会启动,什么决定了 Map 任务的数量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16807713/

相关文章:

hadoop - Hive 外部表未在 Namenode 中显示 (Cloudera-QuickstartVm)

java - HBase:使用MapReduce更新行?

java - 从java中删除hdfs文件夹

java - Spark App 参数编码

hadoop - 创建hive表加载推特数据报错

java - 带有外部库的 Hadoop Hive UDF

hadoop - 什么时候在 mapreduce 作业执行中分配 reducer 的数量/节点?

hadoop - Hadoop 中 HDFS 以外的文件系统如何使用数据局部性?

shell - 如何从 hdfs 位置删除除一个文件以外的所有文件?

java - 在 hadoop 中使用 Combiner 和 Reducer 类