hadoop - 控制映射器处理的记录数

我想控制每个映射器处理的记录数。

在我的集群中，一些数据节点有更多的记录。所以在那个节点上创建的映射器处理更多的没有。的记录。所以这些映射器会运行很长时间。

Mapper 处理时间不依赖于我的记录大小。记录数决定时间。那么有没有办法控制每个mapper处理的记录数呢？

最佳答案

您可以提供 -D mapreduce.input.fileinputformat.split.maxsize=some number。您可以通过了解每个映射器应处理的记录数以及记录的大小来得出这个数字。

关于hadoop - 控制映射器处理的记录数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23425611/

相关文章：

hadoop - 如何缓存映射器中的所有数据记录并在最后处理它们？