hadoop - 使用 aws 自动化 Hive Activity

标签 hadoop amazon-web-services hive amazon-data-pipeline

我想每天自动化我的配置单元脚本,为了做到这一点,我有一个选项是数据管道。但问题是我正在将数据从 dynamo-db 导出到 s3,并使用配置单元脚本来处理这些数据。我在配置单元脚本中提供此输入和输出,这是问题开始的地方,因为配置单元事件必须有输入和输出,但我必须在脚本文件中提供它们。

我正在尝试找到一种方法来自动化此配置单元脚本并等待一些想法?

干杯,

最佳答案

您可以在 Hive 事件上禁用暂存以运行任意 Hive 脚本。

stage = false

做类似的事情:

{
  "name": "DefaultActivity1",
  "id": "ActivityId_1",
  "type": "HiveActivity",
  "stage": "false",
  "scriptUri": "s3://baucket/query.hql",
  "scriptVariable": [
    "param1=value1",
    "param2=value2"
  ],
  "schedule": {
    "ref": "ScheduleId_l"
  },
  "runsOn": {
    "ref": "EmrClusterId_1"
  }
},

关于hadoop - 使用 aws 自动化 Hive Activity,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19709651/

相关文章:

java - 在 hadoop 的提示符下创建和运行可运行的 jar

hadoop - 如何修复 "Task attempt_201104251139_0295_r_000006_0 failed to report status for 600 seconds."

postgresql - 带有 EMR 和 Jupyter 笔记本的 Postgres JAR

hadoop - 如何连接到hbase?

hadoop - mapreduce中的单个reducer是否需要分区?

hadoop - Hadoop文件读取

amazon-web-services - AWS API 网关和 EC2 服务代理

python - 带有 python docker 容器的 AWS Lambda 的无效入口点

hadoop - 使用 keytab 连接到经过安全 kerberos 身份验证的集群中的配置单元

hadoop - HBase Hive处理程序不起作用