hadoop - 评估和比较 Hadoop 的商业智能设计注意事项

标签 hadoop data-warehouse business-intelligence hadoop-plugins

我正在考虑数据仓库和商业智能的各种技术,并且发现了这个名为 Hadoop 的激进工具。 Hadoop 似乎并不完全是为了 BI 目的而构建的,但有一些引用资料表明它在该领域具有潜力。 (http://www.infoworld.com/d/data-explosion/hadoop-pitched-business-intelligence-488)。

尽管我从互联网上获得的信息很少,但我的直觉告诉我,hadoop 可以成为传统 BI 解决方案领域的颠覆性技术。关于这个主题的信息确实很少,因此我想在这里收集大师关于 Hadoop 作为 BI 工具与传统后端 BI 基础设施(如 Oracle Exadata、vertica 等)相比的潜力的所有想法。首先,我想问以下问题 -

  • 设计注意事项 - 使用 Hadoop 设计 BI 解决方案与传统工具有何不同?我知道它应该有所不同,因为我读到无法在 Hadoop 中创建模式。我还读到,一个主要优势将是完全消除 Hadoop 的 ETL 工具(这是真的吗?)我们需要 Hadoop + Pig + Mahout 来获得 BI 解决方案吗?

感谢和问候!

编辑 - 分解为多个问题。将从我认为最重要的一个开始。

最佳答案

Hadoop 是成为 BI 解决方案一部分的出色工具。它本身并不是 BI 解决方案。 Hadoop 的作用是接收 Data_A 并输出 Data_B。 Bi 需要但不是有用形式的任何内容都可以使用 MapReduce 进行处理并输出有用形式的数据。无论是 CSV、HIVE、HBase、MSSQL 还是其他用于查看数据的内容。

我相信Hadoop应该是ETL工具。这就是我们使用它的目的。我们每小时处理大量日志文件并将其存储在 Hive 中,并进行每日聚合,这些聚合加载到 MSSQL 服务器中并通过可视化层进行查看。

我遇到的主要设计考虑因素是:
- 数据灵活性:您希望用户查看预先聚合的数据,还是能够灵活地调整查询并以他们想要的方式查看数据
- 速度:您希望用户等待数据多长时间? Hive(例如)速度很慢。即使数据集相当小,也需要几分钟才能生成结果。遍历的数据越大,生成结果所需的时间就越长。
- 可视化:您想使用什么类型的可视化?您想要定制很多部件还是能够使用现成的东西?您的可视化需要哪些限制和灵活性?可视化需要有多灵活和多变?

更新:作为对 @Bhat 询问缺乏可视化的评论的回应...
缺乏使我们能够有效利用 HBase 中存储的数据的可视化工具是重新评估我们的解决方案的一个主要因素。我们将原始数据存储在Hive中,并将数据预先聚合并存储在HBase中。为了利用它,我们必须编写一个自定义连接器(完成这部分)和可视化层。我们研究了我们能够生产什么以及什么可以商业化,然后走上了商业路线。
我们仍然使用 Hadoop 作为处理博客的 ETL 工具,这非常棒。我们只是将 ETL 后的原始数据发送到商业大数据数据库,该数据库将在我们的设计中取代 Hive 和 HBase。

Hadoop 确实无法与 MSSQL 或其他数据仓库存储相比。 Hadoop不做任何存储(忽略HDFS),它做数据处理。运行 MapReduces(Hive 所做的)将比 MSSQL(或类似的)慢。

关于hadoop - 评估和比较 Hadoop 的商业智能设计注意事项,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6395495/

相关文章:

hadoop - 仅在 mapreduce 模式下出现 Pig 0.13 错误

java - Java中的Hive Udf(加解密)

postgresql - 触发器不让我在 PostgreSQL 中删除

olap - 这是 BI 工作流的正确想法吗?

python - 在 Pandas 中按年/月/日分组

hadoop - MapReduce 代码只在本地运行。如何以分布式模式执行我的代码?

hadoop - Oozie Pig操作卡在“PREP”状态且作业处于“RUNNING”状态

sql-server-2008 - 在 ETL 期间或插入数据仓库期间计算计算列

data-modeling - 社交媒体的星型架构设计

web-applications - BI 仪表板和 Web 报告开发所需的技能和技术