hadoop - 通过 aws EMR 在 Kinesis 流上运行 hadoop pig 脚本

标签 hadoop amazon-web-services amazon-emr amazon-kinesis amazon-data-pipeline

我正在尝试使用 AWS EMR 上的 pig 脚本批处理运动流中的一些数据。我只需要对流数据进行分组并将其移动到 s3。我试图每隔几个小时运行一次。起初它似乎非常适合 AWS Data Pipeline，但我不知道如何传递迭代号以用于运动检查点。看起来没有任何方法可以增加数字以传递给 pig 脚本。我看过这个例子 here ，它涉及一个始终在线的集群和一个 crontab 脚本，它们会增加迭代次数。有没有一种方法可以使用我缺少的 AWS Data Pipeline 来实现这一点？

最佳答案

我们确实有一个使用 Data Pipeline 来完成您想要的示例，但它使用 Hive 而不是 Pig。这可能足以让您了解如何走上正确的道路。

https://github.com/awslabs/data-pipeline-samples/tree/master/samples/kinesis

如果此示例仍未回答您的问题，请告知我们，以便我们考虑创建另一个示例来解决您的用例。

关于hadoop - 通过 aws EMR 在 Kinesis 流上运行 hadoop pig 脚本，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31973063/

上一篇：hadoop - 使用java代码在hadoop中读取csv文件格式

下一篇：hadoop - Exasol 与 HBase

相关文章：

hadoop - Maui + Torque集群中的Hadoop

hadoop - ubuntu 14.04/64b 安装cloudera manager

amazon-web-services - 如何使用 AppSync Resolvers 和 Aurora 将可选字段插入为空？

amazon-web-services - 如何为 IAM Identity Center 管理的用户添加对 EKS aws-auth 配置映射的访问权限

python - 在大型数据帧 (pyspark) 上，EMR 笔记本 session 在几秒钟内超时(使用 pyspark)

amazon-web-services - 使用 Sqoop 将表从 MySQL 移动到使用远程安装的 Airflow 安排的 Hive

hadoop - 如何捕获正在传输的数据的 Apache Flume 元数据信息

hadoop - 从 oozie 的网络用户界面中删除作业？

amazon-web-services - AWS 为 ECS Auto Scaling 组中启动的实例创建标签

json - 如何使用 JSON 数据制作 HIVE 表？