有人可以帮助我理解以下与Hadoop 1.x相关的问题吗?
我们如何确定映射器和简化器的数量?
有人可以详细解释吗?如果需要考虑其他任何参数,请告诉我。
非常感谢,
曼尼什
最佳答案
映射器数=拆分数。
输入文件将分为多个部分。每个拆分将具有一组记录。平均而言,每个拆分的块大小为一个(大于64 MB)。因此,在您的情况下,您将有大约62500个映射器(或拆分器)(4TB / 64)。您还可以选择提供可配置的输入分割大小。通常,这是在一次读取整个文件时完成的,您可以决定如何处理记录。
reducer 数量=映射器输出中唯一键的数量。您可以通过在作业类中或在jab running命令中配置 reducer 的数量来选择 reducer 的数量。上面的数字基于默认的哈希分区程序。您可以创建自己的分区程序,该分区程序可以确定 reducer 的数量。
关于hadoop - 默认/在hadoop 1.x中查找映射器和化简器的数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33151958/