hadoop - 控制映射器处理的记录数

标签 hadoop mapreduce

我想控制每个映射器处理的记录数。

在我的集群中,一些数据节点有更多的记录。所以在那个节点上创建的映射器处理更多的没有。的记录。所以这些映射器会运行很长时间。

Mapper 处理时间不依赖于我的记录大小。记录数决定时间。那么有没有办法控制每个mapper处理的记录数呢?

最佳答案

您可以提供 -D mapreduce.input.fileinputformat.split.maxsize=some number。您可以通过了解每个映射器应处理的记录数以及记录的大小来得出这个数字。

关于hadoop - 控制映射器处理的记录数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23425611/

相关文章:

hadoop - 如何缓存映射器中的所有数据记录并在最后处理它们?

java - 如何使用 MultipleOutputs 类在 Hadoop 中输出具有特定扩展名(如 .csv)的文件

hadoop - 无法将NCDC数据从Amazon AWS复制到Hadoop集群

hadoop - LAN 虚拟机上的 Web 应用程序 : curl -L works from other vms, 浏览器/主机上的 curl 没有

java - 线程 “main” java.lang.ClassNotFoundException :MaxTemperature 中的异常

hadoop - 配置 Hive 以本地模式运行

hadoop - map reduce 中的集成 SVM

hadoop - 使用内部IP配置从站的主机名-多个NIC

JAVA: SparkConf 无法转换为 SparkContext

hadoop - Apache Hive安装错误