hadoop - 从头开始构建Data Lake

我正在尝试从头开始构建“数据湖”。我了解数据湖的工作原理和目的。遍布互联网。但是，当出现问题时，如何从头开始构建一个问题就没有了。我想了解是否:

Data warehouse + Hadoop = Data Lake

我知道如何运行Hadoop并将数据引入Hadoop。
我想在内部数据湖上构建一个样本来演示我的经理。任何帮助表示赞赏。

最佳答案

您必须具有结构化和非结构化数据，才能将Hadoop集群变成数据湖。

因此，您必须具有一些ETL管道来获取非结构化数据并将其转换为结构化数据。产品评论或类似的评论会提供您的非结构化数据。将其转换为Hive可用的东西(例如)将为您提供结构化数据。

我会用https://opendata.stackexchange.com/来获取您的数据，而用google Hadoop ETL来了解如何清除数据的想法。由您决定如何编写管道(Spark或MapReduce)。

关于hadoop - 从头开始构建Data Lake，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54897265/

上一篇：weblogic - 覆盖 JMX 在 Docker WLS 容器中的工作方式

下一篇：macos - OSX boot2docker无法连接到docker守护程序

相关文章：

hadoop - 在当前日期之前动态删除配置单元中的分区

java - Hadoop分布式缓存

csv - Hive:可以将CSV文件加载到Hive表中的Shell脚本吗？

data-warehouse - 加法、半加法和非加法测量有什么区别

amazon-redshift - 如何使用查询获取 redshift 中查询的总运行时间？

sql-server - 如何组织凌乱的数据库

azure - 适用于 Databricks、Synapse 和 ADLS gen2 的数据治理解决方案

java - 从简单的 java 程序调用 mapreduce 作业

amazon-web-services - 从 DynamoDB 表创建数据湖

json - 如何在 Azure Data Lake Analytics 上下文中分别使用 JSON 文件格式 usql