我找到了大量的文档和示例,但我认为如果拆分是在 map() 函数中完成的,这将无法利用分布式系统的强大功能。
我的分析是否正确?
最佳答案
输入文件被分割并分布在整个服务器集上,允许并行映射执行。您还希望利用映射输出的分区来实现将每个单词的计数收集到一个服务器(分区)上所需的排序。通过这种方式,实际的单词计数也可以并行进行。
关于hadoop - 在使用 MapReduce 执行字数统计时,是否可以在 map 函数中将数据拆分为字词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11207316/