我需要添加第三阶段-合并-合并单独的并行Reduce任务的输出。这使得可以执行联接和构建笛卡尔积之类的事情。有人可以帮助我该怎么做吗? Hadoop 0.21 API支持他的功能。
最佳答案
Hadoop是一个MapReduce(不是MapReduceMerge!)框架,而且这种情况不太可能改变。也就是说,您可以提出Jira或向http://getsatisfaction.com/cloudera/提出要求,以正式表示立场。
如果需要加入,则应尝试Pig(我仅有的一个亲身经历过的人,但也有其他人-Hive,...)。 Pig使联接变得非常简单。
关于hadoop - 在减少阶段之后实现称为合并的第三阶段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6253449/