我需要从 csv 文件(每天从不同的业务数据库中提取)获取数据到 HDFS,然后将其移动到 Hbase,最后将这些数据汇总到数据集市 (sqlServer)。
我想知道自动化这个过程的最佳方法(使用 java 或 hadoops 工具)
最佳答案
我会回应上面的评论。 Kafka Connect,它是 Apache Kafka 的一部分。有了这个,您只需使用配置文件从您的源流式传输,您可以使用 KSQL 创建派生/丰富/聚合流,然后将它们流式传输到 HDFS/Elastic/HBase/JDBC/等等等等
有一个 Kafka Connect 连接器列表 here .
本博客系列介绍了基础知识:
- https://www.confluent.io/blog/simplest-useful-kafka-connect-data-pipeline-world-thereabouts-part-1/
- https://www.confluent.io/blog/blogthe-simplest-useful-kafka-connect-data-pipeline-in-the-world-or-thereabouts-part-2/
- https://www.confluent.io/blog/simplest-useful-kafka-connect-data-pipeline-world-thereabouts-part-3/
关于hadoop - 自动从 Csv 文件获取数据到 Data Lake 的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46180103/