hadoop - 使用 aws 自动化 Hive Activity

标签 hadoop amazon-web-services hive amazon-data-pipeline

我想每天自动化我的配置单元脚本，为了做到这一点，我有一个选项是数据管道。但问题是我正在将数据从 dynamo-db 导出到 s3，并使用配置单元脚本来处理这些数据。我在配置单元脚本中提供此输入和输出，这是问题开始的地方，因为配置单元事件必须有输入和输出，但我必须在脚本文件中提供它们。

我正在尝试找到一种方法来自动化此配置单元脚本并等待一些想法？

干杯，

最佳答案

您可以在 Hive 事件上禁用暂存以运行任意 Hive 脚本。

stage = false

做类似的事情:

{
  "name": "DefaultActivity1",
  "id": "ActivityId_1",
  "type": "HiveActivity",
  "stage": "false",
  "scriptUri": "s3://baucket/query.hql",
  "scriptVariable": [
    "param1=value1",
    "param2=value2"
  ],
  "schedule": {
    "ref": "ScheduleId_l"
  },
  "runsOn": {
    "ref": "EmrClusterId_1"
  }
},

关于hadoop - 使用 aws 自动化 Hive Activity，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19709651/

上一篇：hadoop - hive 查询中的 hive 参数

下一篇：hadoop - 如何将 neo4j 分发到多台机器(是否可能)？

相关文章：

java - 在 hadoop 的提示符下创建和运行可运行的 jar

hadoop - 如何修复 "Task attempt_201104251139_0295_r_000006_0 failed to report status for 600 seconds."

postgresql - 带有 EMR 和 Jupyter 笔记本的 Postgres JAR

hadoop - 如何连接到hbase？

hadoop - mapreduce中的单个reducer是否需要分区？

hadoop - Hadoop文件读取

amazon-web-services - AWS API 网关和 EC2 服务代理

python - 带有 python docker 容器的 AWS Lambda 的无效入口点

hadoop - 使用 keytab 连接到经过安全 kerberos 身份验证的集群中的配置单元

hadoop - HBase Hive处理程序不起作用