hadoop - oozie 历史日期协调员

标签 hadoop hive oozie oozie-coordinator

我想运行 oozie 协调器来获取历史日期,并将日期作为参数传递给工作流程中的脚本。我该怎么做?

我可以将开始日期设置为旧日期吗?它会 catch 吗?以及我应该添加什么频率。

最佳答案

是的,当您提交开始日期早于过去的协调员时,它会 catch 。它会立即开始执行,因此设置 concurrency=1 可以使集群免受重负载。如果您想先处理新文件,也可以设置execution=LIFO。欲了解更多信息,请查看http://oozie.apache.org/docs/3.3.2/CoordinatorFunctionalSpec.html

我正在发布来自 How to schedule a sqoop action using oozie 的答案的修改后的示例

创建coordinator.xml文件:

<coordinator-app name="sample-coord" xmlns="uri:oozie:coordinator:0.2"

                 frequency="${coord:days(7)}"
                 start="${start}"
                 end=  "${end}"

                 timezone="America/New_York">

    <controls>
        <timeout>${timeout}</timeout>
        <concurrency>1</concurrency>
    </controls>

    <datasets>
        <dataset name="data"
                 frequency="${coord:days(7)}"
                 initial-instance="${start}" timezone="America/New_York">
            <uri-template>${data_path}/${YEAR}/${MONTH}/${DAY}</uri-template>
            <done-flag/>
        </dataset>
    </datasets>

    <input-events>
        <data-in name="data_in" dataset="data">
            <instance>${coord:current(0)}</instance>
        </data-in>
    </input-events>

    <action>
        <workflow>
            <app-path>${wf_application_path}</app-path>

            <configuration>
                <property>
                    <name>input</name>
                    <value>${coord:dataIn('data_in')}</value>
                </property>
            </configuration>
        </workflow>
    </action>
</coordinator-app>

在coordinator.properties中指定上述文件中使用的所有属性:

host=namenode01
nameNode=hdfs://${host}:8020

wf_application_path=${nameNode}/oozie/deployments/example
oozie.coord.application.path=${wf_application_path}

data_path=${nameNode}/data

start=2013-08-01T01:00Z
end=2013-08-19T23:59Z
timeout=10

将您的 coordinator.xml 文件上传到 hdfs,然后使用类似内容提交您的协调器作业

oozie job -config coordinator.properties -run

关于hadoop - oozie 历史日期协调员,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/18259752/

相关文章:

r - 在 R 中运行 map reduce 作业时出错

hadoop - 作业从 RUNNING 跳转到 PREP 状态

postgresql - Sqoop-将Hive列数据类型更改为Postgres数据类型

apache - 已安装 Hive 但运行时出错

java - 无法在Maven中的Oozie-hadoop项目上执行目标以安装Oozie

shell - 设置hadoop用户通过oozie shell操作启动spark-submit

hadoop - 我如何使用 Hive 截断 url

hadoop - hdfs dfs 命令很慢 - 有没有办法让它更快?

hive - 删除 Hive 表中的所有分区?

hadoop - Oozie Pig Action 更改作业 jar 的 Guava 依赖性