hadoop - reducer 后映射器启动缓慢

标签 hadoop mapreduce hadoop2

我正在使用 ChainReducer 构建以下模式

Map1 --> Reduce --> Map2 

我希望 Map2 步骤仅在 Reduce 步骤完成后才开始。 hadoop map reduce 中是否有一个属性来设置它。

最佳答案

你应该做的是:

ChainMapper.addMapper(generalConf, Map1.class, ..., new JobConf(false));
ChainReducer.setReducer(generalConf, Reduce.class, ..., new JobConf(false));
ChainReducer.addMapper(generalConf, Map2.class, ..., true, new JobConf(false));
// execute the job with generalConf

以上代码将保证 Map2 的执行仅在 Reduce 完成时开始。

关于hadoop - reducer 后映射器启动缓慢,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37147025/

相关文章:

hadoop - 检查点在 HDFS 中是如何工作的?我想弄清楚 fs.checkpoint.period 和 fs.checkpoint.size

java - 无法将java文件编译为hadoop的类文件

Hadoop 文件系统 mkdirs() 在传递 777 时创建具有 755 权限的目录

hadoop - Hadoop名称节点所需的一些信息

java - 从 java map reduce 代码中跳过 header

hadoop - 最后的 reducer 在MapReduce中非常慢

hadoop - 如何列出事件的 DISTCP 作业?

amazon - 在Amazon Mapreduce中运行的Pig脚本中的STREAM关键字

hadoop - 云计算中 Hadoop 的数据局部性

hadoop - Mapreduce Tasktracker被列入黑名单