最佳答案
根据“合并输出记录”计数器,您的作业似乎使用了合并器。这解释了为什么“减少输入记录”不等于“映射记录”。
组合器相当高效,可将 1 亿条记录缩减至数百条。
您很可能会问为什么“组合输入记录”不等于“映射输出记录”以及为什么“组合输出记录”不等于“记录输入记录”。解释是组合器可以运行多次,这意味着您“实际上”多次计算相同的数据(在这里您可以观察到 541 个额外输入记录等于 677 - 136,但不能保证这两个数字始终匹配)
关于hadoop - 为什么hadoop计数器中的map输出记录和reduce输入记录不同?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37931644/