我正在使用 ChainReducer 构建以下模式
Map1 --> Reduce --> Map2
我希望 Map2 步骤仅在 Reduce 步骤完成后才开始。 hadoop map reduce 中是否有一个属性来设置它。
最佳答案
你应该做的是:
ChainMapper.addMapper(generalConf, Map1.class, ..., new JobConf(false));
ChainReducer.setReducer(generalConf, Reduce.class, ..., new JobConf(false));
ChainReducer.addMapper(generalConf, Map2.class, ..., true, new JobConf(false));
// execute the job with generalConf
以上代码将保证 Map2
的执行仅在 Reduce
完成时开始。
关于hadoop - reducer 后映射器启动缓慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37147025/