我想每天自动化我的配置单元脚本,为了做到这一点,我有一个选项是数据管道。但问题是我正在将数据从 dynamo-db 导出到 s3,并使用配置单元脚本来处理这些数据。我在配置单元脚本中提供此输入和输出,这是问题开始的地方,因为配置单元事件必须有输入和输出,但我必须在脚本文件中提供它们。
我正在尝试找到一种方法来自动化此配置单元脚本并等待一些想法?
干杯,
最佳答案
您可以在 Hive 事件上禁用暂存以运行任意 Hive 脚本。
stage = false
做类似的事情:
{
"name": "DefaultActivity1",
"id": "ActivityId_1",
"type": "HiveActivity",
"stage": "false",
"scriptUri": "s3://baucket/query.hql",
"scriptVariable": [
"param1=value1",
"param2=value2"
],
"schedule": {
"ref": "ScheduleId_l"
},
"runsOn": {
"ref": "EmrClusterId_1"
}
},
关于hadoop - 使用 aws 自动化 Hive Activity,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19709651/