hadoop - GCP Hadoop数据仓库？

标签 hadoop google-cloud-datastore google-cloud-dataproc

我知道Google BigQuery是一个数据仓库，但Dataproc，Big Table，Pub / Sub是否被视为数据仓库？那会使Hadoop成为数据仓库吗？

最佳答案

“数据仓库”主要是一种信息系统概念，它描述了集中的，可信赖的(例如公司/商业)数据源。

来自Wikipedia:“DW是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方，用于为整个企业的 worker 创建分析报告。”

关于您的问题，一个简单的答案是:

Google BigQuery是一个查询执行(和/或数据处理)引擎，您可以在不同类型的数据存储区上使用。

Google BigTable是一种数据库服务，可用于实现
数据仓库或任何其他数据存储。

Google DataProc是一种数据处理服务，由通用的Hadoop处理组件(如MapReduce(或Spark，如果您将其视为Hadoop的一部分)组成)组成。

Hadoop是用于数据存储和处理的框架/平台，包括
不同的组件(例如，通过HDFS进行数据存储，通过MapReduce进行数据处理)。您可以使用Hadoop平台来构建数据仓库，例如通过使用MapReduce处理数据并将其加载到ORC文件中，该文件将存储在HDFS中，并且可以由Hive查询。但是只有当它是“关于数据真相的集中式单一版本”时，才将其称为数据仓库；)

关于hadoop - GCP Hadoop数据仓库？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52472956/

上一篇：Dockerfile 环境变量

下一篇：wordpress - 如何在linode上备份dockerized wordpress？

相关文章：

hadoop - 如何将日期字符串从 UTC 转换为 HIVE 中的特定时区？

apache-spark - 如何在 Google Dataproc 主节点上启用 pyspark HIVE 支持

apache-spark - 如何在 Airflow 中将 Spark 作业属性传递给 DataProcSparkOperator？

hadoop - 由于空间问题导致 Spark 作业失败

apache-spark - 根据 pyspark 中的条件聚合值

hadoop - 尝试在Apache Spark中持久存储到数据库时RDD不起作用

python - GAE 中的引用 ID

java - 如何使用 objectify 在 google 数据存储中正确保存 google 用户？

java - 无法使用 GAE/J DataNucleus 插件版本 2.1.2 获取新创建的 JDO 持久实体的 ID

apache-spark - 与 SparkNLP 的句子相似性仅适用于带有一个句子的 Google Dataproc，当提供多个句子时失败