hadoop - 大数据仓库和传统数据仓库有什么区别

标签 hadoop bigdata data-warehouse

通常,大数据上下文中的数据仓库是基于Apache Hive(对吗?)等基于Hadoop的系统进行管理和实现的。
另一方面,我的问题与方法论过程有关。
大数据如何影响数据仓库的设计过程?
是过程类似还是必须考虑新任务?

最佳答案

Hadoop 的体系结构与MPP数据仓库相似,但有一些显着差异。处理器不是由并行架构严格定义的,而是跨Hadoop集群松散耦合的,并且每个处理器都可以在不同的数据源上工作。

数据操作引擎,数据目录和存储引擎可以彼此独立工作,而Hadoop作为收集点。至关重要的是,Hadoop可以轻松容纳结构化和非结构化数据。这使其成为进行迭代查询的理想环境。企业用户不必尝试根据模式定义的狭窄结构来定义分析输出,而是可以尝试查找对他们最重要的查询。然后可以提取相关数据并将其加载到数据仓库中以进行快速查询。

Hadoop生态系统的最初目标是希望从不同的系统中收集尽可能多的有趣数据,但是以一种更好的方式进行处理。通过这种方法,您可以将所有感兴趣的数据转储到大数据存储中(通常是HDFS – Hadoop分布式文件系统)。这通常在云存储中–云存储既便宜又灵活,并且使数据接近廉价的云计算能力,因此可以很好地完成任务。然后,如果需要,您仍然可以使用Hive等工具进行ETL并创建数据仓库,但更重要的是,您仍然可以使用所有原始数据,因此您还可以定义新问题并对所有原始历史数据进行复杂的分析如果你希望。 Hadoop工具集通过将任务划分为大量廉价商品机器来进行大量计算,从而提供了极大的灵活性和强大的分析能力,从而使您能够比传统仓库执行更强大,更投机和更快速的分析。

关于hadoop - 大数据仓库和传统数据仓库有什么区别,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47533766/

相关文章:

python - centos 5 中的 Ambari 2.0 安装

php - 如何将Apache Phoenix与laravel或PHP集成?

sql - 为什么 IDENTITY 优于 GUID 作为数据仓库的主键?

reporting - 量化数据仓库投资返回率的公认方法是什么?

hadoop - S3 Flume HDFS SINK 压缩

hadoop - 在 hdfs 中重命名目录

hadoop - 在hadoop中,有什么方法可以获取hdfs block 的底层文件系统文件名吗?

r - 在有约束的情况下扩展电网(或电源组)

c# - 在 sql 中使用 udf vs 在 C# 代码中使用方法的性能

sql - MDX 计算事件之间的时间