我正在寻找可以用来从社交媒体流式传输数据的技术 到 hadoop。 我搜索并找到了那些技术
- 水槽。
- Storm 。
- 卡夫卡。
哪个工具最好?为什么?有人熟悉其他一些工具吗?
最佳答案
您很可能会想要使用 Flume,因为它是为与 hdfs 一起工作而构建的。然而,与所有事情一样,这取决于。
Kafka 基本上是一个队列系统,通常用于在分析架构发生故障时保留数据。如果这听起来像您需要的,可能值得研究 RabbitMQ , ZeroMQ ,或者可能是 Kestrel .
Storm 用于复杂的事件处理。如果你使用 storm,你将在引擎盖下使用 zeroMQ,并且可能必须设置一个连接到 kafka 或 RabbitMQ 的 spout。如果您需要在存储之前对数据进行复杂的处理,这可能是正确的选择。您还可以使用其他选项,例如 spark .我倾向于纯粹出于个人喜好而建议 Storm 。听说linkedin也发布了一个实时的复杂事件处理框架,但是我记不起它的名字了。我会在找到后更新帖子。
换句话说,如果您问这个问题,可能是因为您还没有构建这个东西。如果是这种情况,如果您需要流式传输,您可能想研究 hadoop 以外的东西。生态系统正在迅速扩展,可能有很多方法可以做您想做的事。
关于hadoop - 哪些技术可用于将数据从社交媒体流式传输到 hadoop?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19101943/