我们正在从许多服务器接收数据作为HTTP POST消息。我们希望接收消息,进行一些预处理,然后将其写入HDFS。对实时数据流进行操作的最佳选择是什么?
我读过的一些选项:Flume,Kafka,Spark流。如何连接件?
最佳答案
很难说,因为这太笼统了。我可以简要描述一下我们的管道,因为我们做的完全一样。我们有一些NodeJS HTTP服务器,它们将所有传入请求发送到Kafka。然后,我们使用Samza预处理数据。 Samza从Kafka读取消息,然后将其写回到Kafka(另一个主题)。最后,我们使用Camus将数据从Kafka传输到HDFS(Camus现在已弃用)。您还可以使用Kafka Connect将数据从Kafka传输到HDFS。
Samza和Kafka都是(或曾经是)LinkedIn项目,因此可以轻松设置此体系结构,并且Samza利用了一些Kafka功能。
关于hadoop - 将数据作为HTTP POST消息提取时,接收数据,处理数据并将其写入HDFS的选项有哪些?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35682210/