目前尚不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制)。
我想让 Kafka 将数据保存到 HDFS 或 S3,并将该数据的副本发送到 Storm 进行实时处理。 Storm 聚合/分析的输出将存储在 Cassandra 中。我看到一些实现将所有数据从 Kafka 流到 Storm,然后从 Storm 输出两个。但是,我想消除 Storm 对原始数据存储的依赖。
这可能吗?您是否知道任何此类文档/示例/实现?
另外,Kafka对S3存储有很好的支持吗?
我看到 Camus 用于存储到 HDFS——你是否只是通过 cron 运行这个作业以持续将数据从 Kafka 加载到 HDFS?如果作业的第二个实例在前一个作业完成之前开始,会发生什么情况?最后,Camus 会使用 S3 吗?
谢谢 - 我很感激!
最佳答案
关于加缪, 是的,启 Action 业的调度程序应该可以工作。 LinkedIn用的是Azkaban,你也可以看看。
如果一个在另一个完成之前启动,则一定量的数据将被读取两次。因为第二个作业将从第一个作业使用的相同偏移量开始读取。
关于 Camus 和 S3,目前我认为还没有到位。
关于hdfs - Kafka Storm HDFS/S3 数据流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17255714/