我要从输入数据集中获取20%的样本数据。
我想到了两种方法:
随机排序和排序后,reducer会找到20%的mapper数据。(对Map和Reduce使用相同的过程)
哪种方法更好?
最佳答案
我绝对会选择您的第一选择。我不确定为什么您需要 reducer 。只需在 map 阶段过滤掉20%,然后将其命名为“一日”即可。
关于java - Hadoop MapReduce中更好的采样方式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24417007/