hadoop - 将数据作为HTTP POST消息提取时，接收数据，处理数据并将其写入HDFS的选项有哪些？

我们正在从许多服务器接收数据作为HTTP POST消息。我们希望接收消息，进行一些预处理，然后将其写入HDFS。对实时数据流进行操作的最佳选择是什么？

我读过的一些选项:Flume，Kafka，Spark流。如何连接件？

最佳答案

很难说，因为这太笼统了。我可以简要描述一下我们的管道，因为我们做的完全一样。我们有一些NodeJS HTTP服务器，它们将所有传入请求发送到Kafka。然后，我们使用Samza预处理数据。 Samza从Kafka读取消息，然后将其写回到Kafka(另一个主题)。最后，我们使用Camus将数据从Kafka传输到HDFS(Camus现在已弃用)。您还可以使用Kafka Connect将数据从Kafka传输到HDFS。

Samza和Kafka都是(或曾经是)LinkedIn项目，因此可以轻松设置此体系结构，并且Samza利用了一些Kafka功能。

关于hadoop - 将数据作为HTTP POST消息提取时，接收数据，处理数据并将其写入HDFS的选项有哪些？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35682210/

上一篇：hadoop - 配置单元中动态分区和静态分区的最佳做法是什么？

下一篇：hadoop - AWS China hadoop master-将hdfs文件复制到S3的S3DistCp命令抛出NoClassDefFoundError:com/google/gson/internal/Pair

java - 如何编译maven文件？

hadoop - 如何从 Spark 中查看底层 Hadoop 文件系统

读取 Hive 表中的 JSON 数据

java - 事件计数的窗口聚合

hadoop - Spark.jars不将 jar 添加到类路径

oracle - 如何在 Spark 中使用 Hadoop Credential provider 连接到 Oracle 数据库？

go - 使用 kafka-go 计划在 Kafka 中创建消费者

scala - Spark 结构化流未授权访问组

apache-spark - 使用检查点 Spark Stream 的中流更改配置