我正在使用新的Hadoop API,并且由于无法明确指定映射器的数量(与旧的API不同),我需要更改数据块的大小,以便可以控制映射器的数量。如何更改代码中拆分的数据的默认大小?
最佳答案
映射器的数量由(文件)拆分确定
拆分大小由所使用的InputFormat确定。
mapred.max.split.size参数将让您定义分割大小。
关于hadoop - 如何更改Hadoop中数据 block 的大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22058683/