hadoop - MapReduce输入输出选择性

我正在编写一个MapReduce程序，对映射器的要求是输出/输出映射输入文件的 x% ，以用作化简器的输入。例如，如果我的文件具有100记录，则在50%阈值下，reducer的输入应仅为50条记录。

我已经看到了获取前N个记录的示例，但这不是我想要的。

最佳答案

有多种方法可以实现它，

编写仅接受X％数据的自定义InputFormat。

由于映射器的数量将取决于InputSplit，因此请在Mapper中编写自定义代码，以仅从Mapper中发射X％的数据。

如果您的数据均匀分布，则可以使用分区程序将X％的数据传递给Reducer。

关于hadoop - MapReduce输入输出选择性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/50515300/

相关文章：

hadoop - 如何将 mapreduce 结果加载到 Hive 中？