hadoop - GCP Hadoop数据仓库?

标签 hadoop google-cloud-datastore google-cloud-dataproc

我知道Google BigQuery是一个数据仓库,但Dataproc,Big Table,Pub / Sub是否被视为数据仓库?那会使Hadoop成为数据仓库吗?

最佳答案

“数据仓库”主要是一种信息系统概念,它描述了集中的,可信赖的(例如公司/商业)数据源。

来自Wikipedia:“DW是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方,用于为整个企业的 worker 创建分析报告。”

关于您的问题,一个简单的答案是:

  • Google BigQuery是一个查询执行(和/或数据处理)引擎,您可以在不同类型的数据存储区上使用。
  • Google BigTable是一种数据库服务,可用于实现
    数据仓库或任何其他数据存储。
  • Google DataProc是一种数据处理服务,由通用的Hadoop处理组件(如MapReduce(或Spark,如果您将其视为Hadoop的一部分)组成)组成。
  • Hadoop是用于数据存储和处理的框架/平台,包括
    不同的组件(例如,通过HDFS进行数据存储,通过MapReduce进行数据处理)。您可以使用Hadoop平台来构建数据仓库,例如通过使用MapReduce处理数据并将其加载到ORC文件中,该文件将存储在HDFS中,并且可以由Hive查询。但是只有当它是“关于数据真相的集中式单一版本”时,才将其称为数据仓库;)
  • 关于hadoop - GCP Hadoop数据仓库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52472956/

    相关文章:

    hadoop - 如何将日期字符串从 UTC 转换为 HIVE 中的特定时区?

    apache-spark - 如何在 Google Dataproc 主节点上启用 pyspark HIVE 支持

    apache-spark - 如何在 Airflow 中将 Spark 作业属性传递给 DataProcSparkOperator?

    hadoop - 由于空间问题导致 Spark 作业失败

    apache-spark - 根据 pyspark 中的条件聚合值

    hadoop - 尝试在Apache Spark中持久存储到数据库时RDD不起作用

    python - GAE 中的引用 ID

    java - 如何使用 objectify 在 google 数据存储中正确保存 google 用户?

    java - 无法使用 GAE/J DataNucleus 插件版本 2.1.2 获取新创建的 JDO 持久实体的 ID

    apache-spark - 与 SparkNLP 的句子相似性仅适用于带有一个句子的 Google Dataproc,当提供多个句子时失败