hadoop - 自动从 Csv 文件获取数据到 Data Lake 的最佳方法

标签 hadoop hbase hdfs datamart bigdata

我需要从 csv 文件(每天从不同的业务数据库中提取)获取数据到 HDFS,然后将其移动到 Hbase,最后将这些数据汇总到数据集市 (sqlServer)。

我想知道自动化这个过程的最佳方法(使用 java 或 hadoops 工具)

最佳答案

我会回应上面的评论。 Kafka Connect,它是 Apache Kafka 的一部分。有了这个,您只需使用配置文件从您的源流式传输,您可以使用 KSQL 创建派生/丰富/聚合流,然后将它们流式传输到 HDFS/Elastic/HBase/JDBC/等等等等

有一个 Kafka Connect 连接器列表 here .

本博客系列介绍了基础知识:

关于hadoop - 自动从 Csv 文件获取数据到 Data Lake 的最佳方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46180103/

相关文章:

hadoop - 如何使用hadoop解决以下用例?

hadoop - 我可以为每个节点定义不同的 map 和 reduce 插槽吗?

java - 一个作业更新另一个作业输出的最佳方式

hadoop - 如何使用 starttime endtime 导出 hbase 表?

java - 如何使 Mapper 从具有公共(public)列的两个不同文件中获取输入?

java - Hadoop Namenode 将 FSNamesystem 指标发送到具有损坏指标路径的 Graphite

hbase - CDH Hue 和 Hbase 身份验证

hadoop - 无法通过HBase启动Apache Phoenix

hadoop - 尝试Edureka教程的Pig错误

hadoop 2.7.3 HDFS Namenode -format No Such FIle or Directory 错误