我正在尝试使用 AWS EMR 上的 pig 脚本批处理运动流中的一些数据。我只需要对流数据进行分组并将其移动到 s3。我试图每隔几个小时运行一次。起初它似乎非常适合 AWS Data Pipeline,但我不知道如何传递迭代号以用于运动检查点。看起来没有任何方法可以增加数字以传递给 pig 脚本。我看过这个例子 here ,它涉及一个始终在线的集群和一个 crontab 脚本,它们会增加迭代次数。有没有一种方法可以使用我缺少的 AWS Data Pipeline 来实现这一点?
最佳答案
我们确实有一个使用 Data Pipeline 来完成您想要的示例,但它使用 Hive 而不是 Pig。这可能足以让您了解如何走上正确的道路。
https://github.com/awslabs/data-pipeline-samples/tree/master/samples/kinesis
如果此示例仍未回答您的问题,请告知我们,以便我们考虑创建另一个示例来解决您的用例。
关于hadoop - 通过 aws EMR 在 Kinesis 流上运行 hadoop pig 脚本,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31973063/