hadoop - 流式传输文件夹中的文件

标签 hadoop apache-kafka kafka-consumer-api apache-kafka-connect

我正在将流媒体应用程序从水槽移到kafka。
我是kafka的新手，因此需要帮助。

我有一台Windows计算机，IOT传感器在特定位置(例如D:/文件夹)连续生成CSV文件。
我想将其转移到hadoop集群中。

1)在传输日志文件之间是否需要kafka群集/代理，还是可以直接从Windows计算机传输到hadoop linux计算机？

2)我可以只在Windows和hadoop linux机器上安装kafka，然后直接将CSV文件发布到在hadoop机器上创建的kafka主题。
我将在hadoop机器上运行使用者吗？

最佳答案

使用kafka使用者获取文件并将其放在HDFS上。您需要生产者将文件发送到队列中，而消费者则需要使用它们来处理它们。

生产者可以在Windows中运行，并且需要使用kafka客户端api。

使用者必须在HDFS上运行。您需要在集群上安装kafka，对其进行配置等...取决于您的Hadoop发行版。

关于hadoop - 流式传输文件夹中的文件，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47975903/

上一篇：bash - 从另一个命令获取一些环境变量后，在远程主机上运行的 docker 容器中运行任意命令

下一篇：docker - 管理中心部署Websphere Liberty

相关文章：

java - mapreduce 作业的进度

java - 有时，确实会创建唯一 id 的消费者组，并且消费者会在没有分区的情况下卡住

docker - Zookeeper重新启动后，Kafka群集丢失消息

apache-kafka - 在没有 Confluent 组件的情况下从 Kafka 生成和使用 Avro 消息

apache-spark - 如何让 Spark Streaming (Spark 1.0.0) 从 Kafka (Kafka Broker 0.8.1) 读取最新数据

apache-kafka - Kafka 0.9+ 如何选择代理作为新消费者组的偏移量管理器(或组协调器)？

java - 我如何以编程方式获取 Hadoop 在 Web 界面中显示的所有作业跟踪器和任务跟踪器信息？

hadoop - 如何使用自定义Oozie EL函数读取HDFS文件

hadoop - HBase和hadoop一起工作

apache-kafka - Kafka 消费者测试和报告指标