我正在编写一个MapReduce程序,对映射器的要求是输出/输出映射输入文件的 x%
,以用作化简器的输入。例如,如果我的文件具有100
记录,则在50%
阈值下,reducer的输入应仅为50条记录。
我已经看到了获取前N个记录的示例,但这不是我想要的。
最佳答案
有多种方法可以实现它,
关于hadoop - MapReduce输入输出选择性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50515300/