hdfs - Kafka Storm HDFS/S3 数据流

标签 hdfs apache-kafka apache-storm

目前尚不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制)。

我想让 Kafka 将数据保存到 HDFS 或 S3,并将该数据的副本发送到 Storm 进行实时处理。 Storm 聚合/分析的输出将存储在 Cassandra 中。我看到一些实现将所有数据从 Kafka 流到 Storm,然后从 Storm 输出两个。但是,我想消除 Storm 对原始数据存储的依赖。

这可能吗?您是否知道任何此类文档/示例/实现?

另外,Kafka对S3存储有很好的支持吗?

我看到 Camus 用于存储到 HDFS——你是否只是通过 cron 运行这个作业以持续将数据从 Kafka 加载到 HDFS?如果作业的第二个实例在前一个作业完成之前开始,会发生什么情况?最后,Camus 会使用 S3 吗?

谢谢 - 我很感激!

最佳答案

关于加缪, 是的,启 Action 业的调度程序应该可以工作。 LinkedIn用的是Azkaban,你也可以看看。

如果一个在另一个完成之前启动,则一定量的数据将被读取两次。因为第二个作业将从第一个作业使用的相同偏移量开始读取。

关于 Camus 和 S3,目前我认为还没有到位。

关于hdfs - Kafka Storm HDFS/S3 数据流,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17255714/

相关文章:

hadoop - Greenplum PXF是否支持HDFS短路读取?

java - 使用 Kafka Streaming 聚合事件数据

java - spring Kafka模型不在可信包中

java - Storm 不尊重最大喷口支出

java - 流关闭错误 - Storm

hadoop - 将文件从本地文件系统复制到hdfs中的问题

hadoop - Hive 中的外部表

hadoop - 在没有HDFS的情况下是否可以在伪分布式运行中运行Hadoop?

java - 找不到“org.springframework.kafka.core.ConsumerFactory”

java - Apache Storm 拓扑上的 Sigar UnsatisfiedLinkError