hdfs - Kafka Storm HDFS/S3 数据流

目前尚不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制)。

我想让 Kafka 将数据保存到 HDFS 或 S3，并将该数据的副本发送到 Storm 进行实时处理。 Storm 聚合/分析的输出将存储在 Cassandra 中。我看到一些实现将所有数据从 Kafka 流到 Storm，然后从 Storm 输出两个。但是，我想消除 Storm 对原始数据存储的依赖。

这可能吗？您是否知道任何此类文档/示例/实现？

另外，Kafka对S3存储有很好的支持吗？

我看到 Camus 用于存储到 HDFS——你是否只是通过 cron 运行这个作业以持续将数据从 Kafka 加载到 HDFS？如果作业的第二个实例在前一个作业完成之前开始，会发生什么情况？最后，Camus 会使用 S3 吗？

谢谢 - 我很感激!

最佳答案

关于加缪，是的，启 Action 业的调度程序应该可以工作。 LinkedIn用的是Azkaban，你也可以看看。

如果一个在另一个完成之前启动，则一定量的数据将被读取两次。因为第二个作业将从第一个作业使用的相同偏移量开始读取。

关于 Camus 和 S3，目前我认为还没有到位。

关于hdfs - Kafka Storm HDFS/S3 数据流，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/17255714/