所以有这个流数据和api来获取数据。我如何在这里使用kafka?我应该先获取数据并存储然后使用kafka吗?对不起,我对此非常陌生
最佳答案
Kafka Connect和Kafka Streams是基本Kafka包装的两个内置库
如果要将数据放入Hadoop,Confluent会维护一个HDFS Connect plugin。如果要“从API”获取数据,这有点含糊,但是您可以自己编写“源连接器”(所需的是there may even be one that exists)的Kafka Connect任务,否则Apache NiFi或Streamsets之类的工具可以与许多工具很好地集成产品(您可能甚至不需要Kafka使用这两个产品,除了它是持久的消息总线之外)
如果您确实想对某个程序进行大规模编程,可以查看Spark或Flink。
关于hadoop - 如果我想使用kafka从API获取一些数据。有哪些步骤?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49503592/