hadoop - 将数据作为HTTP POST消息提取时,接收数据,处理数据并将其写入HDFS的选项有哪些?

标签 hadoop apache-kafka spark-streaming

我们正在从许多服务器接收数据作为HTTP POST消息。我们希望接收消息,进行一些预处理,然后将其写入HDFS。对实时数据流进行操作的最佳选择是什么?

我读过的一些选项:Flume,Kafka,Spark流。如何连接件?

最佳答案

很难说,因为这太笼统了。我可以简要描述一下我们的管道,因为我们做的完全一样。我们有一些NodeJS HTTP服务器,它们将所有传入请求发送到Kafka。然后,我们使用Samza预处理数据。 Samza从Kafka读取消息,然后将其写回到Kafka(另一个主题)。最后,我们使用Camus将数据从Kafka传输到HDFS(Camus现在已弃用)。您还可以使用Kafka Connect将数据从Kafka传输到HDFS。

Samza和Kafka都是(或曾经是)LinkedIn项目,因此可以轻松设置此体系结构,并且Samza利用了一些Kafka功能。

关于hadoop - 将数据作为HTTP POST消息提取时,接收数据,处理数据并将其写入HDFS的选项有哪些?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35682210/

相关文章:

apache-kafka - 事件溯源是基于编排的 SAGA 模式的增强模式吗?

java - 如何编译maven文件?

hadoop - 如何从 Spark 中查看底层 Hadoop 文件系统

读取 Hive 表中的 JSON 数据

java - 事件计数的窗口聚合

hadoop - Spark.jars不将 jar 添加到类路径

oracle - 如何在 Spark 中使用 Hadoop Credential provider 连接到 Oracle 数据库?

go - 使用 kafka-go 计划在 Kafka 中创建消费者

scala - Spark 结构化流 未授权访问组

apache-spark - 使用检查点 Spark Stream 的中流更改配置