hadoop - 如何使用多个映射器为多输入路径配置 oozie 工作流

标签 hadoop workflow oozie

任何人都可以帮助我使用 Map-Reduce 操作配置工作流程,它采用多个输入路径,每个输入路径都与一个映射器相关联,就像 MultipleInputs.addInputPath api 采用输入路径和映射器一样。这些映射器的输出将提供给 reducer 。

我用 java Action 试过了,但它只会执行一个 map task 。但是这里的输入路径包含大量数据,所以在这种情况下不会使用 java 操作。

有什么办法可以处理这种情况吗?

问候, 克里什。

最佳答案

在工作流程中,您可以在 mapred.input.dir 中提供逗号分隔的输入目录列表。这将使这些目录中的文件在不同的映射器上运行。

关于hadoop - 如何使用多个映射器为多输入路径配置 oozie 工作流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18270454/

相关文章:

hadoop - 如何获取hadoop目录的绝对路径

hadoop - cloudera hadoop mapreduce 作业 GC 开销限制超出错误

java - Reducer 代码是代码没有执行?

java - 编译 Hadoop native - 在 Maven 插件中发现错误

workflow - 寻找理想的 git-svn 工作流程

Python 分析 : time spent on each line of function

node.js - Heroku 应用程序的环境管理 Node.js 插件/方法?

java - 如何单独测试作为 oozie 工作流一部分的 hadoop MapReduce java 操作(带有文件标签)?

hadoop - 如何在 Apache Oozie 中动态定义工作流程?

hadoop - Hortonworks Oozie Spark 操作 - NullPointerException