hadoop - 哪些技术可用于将数据从社交媒体流式传输到 hadoop?

标签 hadoop flume apache-kafka social-media

我正在寻找可以用来从社交媒体流式传输数据的技术 到 hadoop。 我搜索并找到了那些技术

  1. 水槽。
  2. Storm 。
  3. 卡夫卡。

哪个工具最好?为什么?有人熟悉其他一些工具吗?

最佳答案

您很可能会想要使用 Flume,因为它是为与 hdfs 一起工作而构建的。然而,与所有事情一样,这取决于。

Kafka 基本上是一个队列系统,通常用于在分析架构发生故障时保留数据。如果这听起来像您需要的,可能值得研究 RabbitMQ , ZeroMQ ,或者可能是 Kestrel .

Storm 用于复杂的事件处理。如果你使用 storm,你将在引擎盖下使用 zeroMQ,并且可能必须设置一个连接到 kafka 或 RabbitMQ 的 spout。如果您需要在存储之前对数据进行复杂的处理,这可能是正确的选择。您还可以使用其他选项,例如 spark .我倾向于纯粹出于个人喜好而建议 Storm 。听说linkedin也发布了一个实时的复杂事件处理框架,但是我记不起它的名字了。我会在找到后更新帖子。

换句话说,如果您问这个问题,可能是因为您还没有构建这个东西。如果是这种情况,如果您需要流式传输,您可能想研究 hadoop 以外的东西。生态系统正在迅速扩展,可能有很多方法可以做您想做的事。

关于hadoop - 哪些技术可用于将数据从社交媒体流式传输到 hadoop?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19101943/

相关文章:

arrays - Hive:使用 csv 文件中的结构数组创建表,其中所有内容均以逗号分隔

python - 管道命令有效,但Mapreduce无效

docker - Kafka docker镜像中的可配置延迟

apache-kafka - 不要打印kafka-console-consumer警告

hadoop - 用kerberos访问Hadoop失败

hadoop - 如何在没有分区的情况下将数据附加到现有的配置单元表

apache - 使用水槽将数据流传输到S3

ubuntu - 循环获取 'checking flume.conf for changes'

hadoop - 使用拦截器过滤 Flume 中的日志文件

go - 动态添加Kafka主题以从中使用,而无需重新启动GoLang应用程序