hadoop - 使用 oozie 运行多个 mapreduce 作业?

标签 hadoop oozie

作为解决方法的一部分,我想使用两个 mapreduce 作业(而不是一个),它们应该按顺序运行以提供所需的效果。

每个作业中的映射函数只是简单地发出每个键值对而不进行处理。每个作业中的 reduce 函数都不同,因为它们进行不同类型的处理。

我偶然发现了 oozie,它似乎直接写入后续作业的输入流(或者不是吗?)——这很好,因为中间数据很大(I/O 操作会成为瓶颈) .

如何使用 oozie(工作流程中的 2 个 mr 作业)实现此目的?

我确实浏览了以下资源,但它们只是将单个作业作为工作流运行: https://cwiki.apache.org/confluence/display/OOZIE/Map+Reduce+Cookbook

感谢帮助。

干杯

最佳答案

有,看ChainMapper Hadoop 中的类。它允许您将一个映射器的映射输出直接转发到下一个映射器的输入,而无需访问磁盘。

关于hadoop - 使用 oozie 运行多个 mapreduce 作业?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13369260/

相关文章:

apache-spark - Oozie xmlns版本

hadoop - 运行 Oozie 时出现问题

azure - 为什么 Oozie 会抛出 "access denied org.apache.derby.security.SystemPermission( "engine", "usederbyinternals")"?

java - 绝对 URI 中的相对路径 : rsrc:mahout-core-0. 7.jar

hadoop - hbase 区域服务器未与主服务器通信

hadoop - 使用 MapReduce 的 Hive 表数据

ubuntu - Ubuntu 12.04.4 上的 Hadoop 和 mkdir : org. apache.hadoop.security.AccessControlException:权限被拒绝

hadoop - CDH5 中的 Oozie 不获取 mapreduce.job.counters.max

java - hadoop中的Java ArrayList <String> .contains()

hadoop - OOZIE:PIG 作业执行失败