hadoop - 如果我想使用kafka从API获取一些数据。有哪些步骤?

标签 hadoop apache-kafka streaming

所以有这个流数据和api来获取数据。我如何在这里使用kafka?我应该先获取数据并存储然后使用kafka吗?对不起,我对此非常陌生

最佳答案

Kafka Connect和Kafka Streams是基本Kafka包装的两个内置库

如果要将数据放入Hadoop,Confluent会维护一个HDFS Connect plugin。如果要“从API”获取数据,这有点含糊,但是您可以自己编写“源连接器”(所需的是there may even be one that exists)的Kafka Connect任务,否则Apache NiFi或Streamsets之类的工具可以与许多工具很好地集成产品(您可能甚至不需要Kafka使用这两个产品,除了它是持久的消息总线之外)

如果您确实想对某个程序进行大规模编程,可以查看Spark或Flink。

关于hadoop - 如果我想使用kafka从API获取一些数据。有哪些步骤?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49503592/

相关文章:

hadoop - 基于部分HBase行创建RDD

apache-kafka - 使用 SQL Server 上的 JDBC Sink Connector 自动创建适当的 DATETIME 类型字段

java - 无法在 Windows 上使用 kafka-run-class.bat 运行类

apache-kafka - Flink(Kafka 来源)如何管理偏移量?

c++ - 在 C++ 中检查文件是否存在、大小和相似性

arrays - 如何在hadoop分区器中定义数组

java - Hadoop - 如何使用和减少多个输入?

c# - 将 HTTP 音频流记录到文件

Android:无法播放mp4视频

hadoop - Hadoop> Mapper类输入错误