hadoop - 自动从 Csv 文件获取数据到 Data Lake 的最佳方法

我需要从 csv 文件(每天从不同的业务数据库中提取)获取数据到 HDFS，然后将其移动到 Hbase，最后将这些数据汇总到数据集市 (sqlServer)。

我想知道自动化这个过程的最佳方法(使用 java 或 hadoops 工具)

最佳答案

我会回应上面的评论。 Kafka Connect，它是 Apache Kafka 的一部分。有了这个，您只需使用配置文件从您的源流式传输，您可以使用 KSQL 创建派生/丰富/聚合流，然后将它们流式传输到 HDFS/Elastic/HBase/JDBC/等等等等

有一个 Kafka Connect 连接器列表 here .

本博客系列介绍了基础知识:

关于hadoop - 自动从 Csv 文件获取数据到 Data Lake 的最佳方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46180103/

相关文章：

hadoop - 如何使用hadoop解决以下用例？