我正在将流媒体应用程序从水槽移到kafka。
我是kafka的新手,因此需要帮助。
我有一台Windows计算机,IOT传感器在特定位置(例如D:/文件夹)连续生成CSV文件。
我想将其转移到hadoop集群中。
1)在传输日志文件之间是否需要kafka群集/代理,还是可以直接从Windows计算机传输到hadoop linux计算机?
2)我可以只在Windows和hadoop linux机器上安装kafka,然后直接将CSV文件发布到在hadoop机器上创建的kafka主题。
我将在hadoop机器上运行使用者吗?
最佳答案
使用kafka使用者获取文件并将其放在HDFS上。您需要生产者将文件发送到队列中,而消费者则需要使用它们来处理它们。
生产者可以在Windows中运行,并且需要使用kafka客户端api。
使用者必须在HDFS上运行。您需要在集群上安装kafka,对其进行配置等...取决于您的Hadoop发行版。
关于hadoop - 流式传输文件夹中的文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47975903/