我从许多博客/网页上读到
the running time of a mapper should be more than X minutes
我了解设置映射器会涉及开销,但是这是如何计算的呢?为什么X分钟后开销是合理的?当我们讨论开销时,Hadoop开销是多少?
最佳答案
它不是硬编码规则,但是很有意义。在启动映射器之前,在后台处理了许多小过程。它的初始化,除实际处理外的其他内容本身将需要10到15秒。因此,为了减少分割数(这反过来又会减少映射器数),可以将maxsplitsize设置为博客传达的更高值。如果我们做不到。以下是MR框架在创建映射器时必须处理的开销。
关于hadoop - 为什么映射器的运行时间应该超过1分钟?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32753532/