hadoop - 哪些技术可用于将数据从社交媒体流式传输到 hadoop？

标签 hadoop flume apache-kafka social-media

我正在寻找可以用来从社交媒体流式传输数据的技术到 hadoop。我搜索并找到了那些技术

水槽。
Storm 。
卡夫卡。

哪个工具最好？为什么？有人熟悉其他一些工具吗？

最佳答案

您很可能会想要使用 Flume，因为它是为与 hdfs 一起工作而构建的。然而，与所有事情一样，这取决于。

Kafka 基本上是一个队列系统，通常用于在分析架构发生故障时保留数据。如果这听起来像您需要的，可能值得研究 RabbitMQ , ZeroMQ ，或者可能是 Kestrel .

Storm 用于复杂的事件处理。如果你使用 storm，你将在引擎盖下使用 zeroMQ，并且可能必须设置一个连接到 kafka 或 RabbitMQ 的 spout。如果您需要在存储之前对数据进行复杂的处理，这可能是正确的选择。您还可以使用其他选项，例如 spark .我倾向于纯粹出于个人喜好而建议 Storm 。听说linkedin也发布了一个实时的复杂事件处理框架，但是我记不起它的名字了。我会在找到后更新帖子。

换句话说，如果您问这个问题，可能是因为您还没有构建这个东西。如果是这种情况，如果您需要流式传输，您可能想研究 hadoop 以外的东西。生态系统正在迅速扩展，可能有很多方法可以做您想做的事。

关于hadoop - 哪些技术可用于将数据从社交媒体流式传输到 hadoop？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19101943/

上一篇：macos - OSX - 无法将文件从本地文件系统复制到 hdfs

下一篇：hadoop - 当我设置 Hadoop 时，底层文件系统需要哪些权限？

python - 管道命令有效，但Mapreduce无效

docker - Kafka docker镜像中的可配置延迟

apache-kafka - 不要打印kafka-console-consumer警告

hadoop - 用kerberos访问Hadoop失败

hadoop - 如何在没有分区的情况下将数据附加到现有的配置单元表

apache - 使用水槽将数据流传输到S3

ubuntu - 循环获取 'checking flume.conf for changes'

hadoop - 使用拦截器过滤 Flume 中的日志文件

go - 动态添加Kafka主题以从中使用，而无需重新启动GoLang应用程序

hadoop - 哪些技术可用于将数据从社交媒体流式传输到 hadoop？

上一篇：macos - OSX - 无法将文件从本地文件系统复制到 hdfs

下一篇：hadoop - 当我设置 Hadoop 时，*底层* 文件系统需要哪些权限？

下一篇：hadoop - 当我设置 Hadoop 时，底层文件系统需要哪些权限？