我知道Google BigQuery是一个数据仓库,但Dataproc,Big Table,Pub / Sub是否被视为数据仓库?那会使Hadoop成为数据仓库吗?
最佳答案
“数据仓库”主要是一种信息系统概念,它描述了集中的,可信赖的(例如公司/商业)数据源。
来自Wikipedia:“DW是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方,用于为整个企业的 worker 创建分析报告。”
关于您的问题,一个简单的答案是:
数据仓库或任何其他数据存储。
不同的组件(例如,通过HDFS进行数据存储,通过MapReduce进行数据处理)。您可以使用Hadoop平台来构建数据仓库,例如通过使用MapReduce处理数据并将其加载到ORC文件中,该文件将存储在HDFS中,并且可以由Hive查询。但是只有当它是“关于数据真相的集中式单一版本”时,才将其称为数据仓库;)
关于hadoop - GCP Hadoop数据仓库?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52472956/