data-warehouse - EDW Kimball VS Inmon

标签 data-warehouse

我的任务是提出有关如何进行 EDW 的建议,并且正在寻求对我所看到的内容的澄清。我所了解的一切都表明,与 Inmon 相比,Kimball 的方法将更快地为业务带来值(value)。我知道 Kimball 的方法是从一开始的维度模型,不同的数据集市(星型模式)通过一致的维度进行集成……因此理论上我可以简单地提出我的直接 DM 来解决业务需求并从那里继续.

我正在学习的内容表明 Inmon 的模型表明我有一个用 3NF 设计的 EDW。 EDW 不是由源系统定义的,而是由业务结构、企业工厂(订单、人力资源等)定义的。所以来自不同系统的数据映射到这个结构中。一旦数据采用这种形式,就会创建 ETL 以生成 DM。

我个人觉得 Inmon 的方法是一个更好的方法。我相信这种方式将确保数据的一致性,并且感觉您可以使用这些数据做更多的事情。阻碍我采用这种方法的是我正在阅读的所有内容都表明交付某些东西需要更多时间,但我不知道这是真的。从我的狭隘观点来看,无论最终结果如何,我们都需要一个 DM。无论使用 Kimball 还是 Inmon 的方法,最终结果都是一样的。

那么问题就变成了我们如何到达那里?在 Kimballs 方法中,我们将创建 ETL 到某个暂存位置,通常从那里创建一个 DM。在 Inmon 的方法中,我觉得我们只是添加了另一层……即从暂存区我们将这些数据加载到按功能组织的 3NF 中的另一个数据库中。我缺少的是这一步如何增加这么多时间。

我觉得我可以看看需要制作的最终DM。将这些映射回 3NF 中的 DW,然后随着更多 DM 的请求,继续使用越来越多的数据构建 3NF 中的 DW。但是,如果我在 Kimballs 模型中创建一个 DM,那么 DM 将围绕为该 DM 决定的粒度级别构建,如果下一个 DM 请求想要以更深的粒度报告怎么办(对我来说,感觉就像 Kimballs 方法需要更多工作)和 Inmon 的没关系。我拥有跨国级别的一切,因此需要不同 Cereal 的 DM,我有数据,只需将其 ETL 到 DM,所有 DM 将报告相同,因为它们来自相同的数据。

我不知道......只是在寻找其他人的观点。我读到的所有内容都说 Kimball 的速度更快……我说肯定可能会有点,但走更快的路线肯定会产生成本。并且为了争论...假设需要一个星期才能启动并运行 Kimballs 方法...对我来说,使用 Inmon 的时间应该只需要 10% 或者 20%。

如果有人对不同模型有任何实际经验,并且如果一个模型真的需要更长的时间,那么另一个模型......请分享。或者,如果我有这个倒退,也告诉我!

最佳答案

对于上下文;我照看一个30亿条记录的数据仓库,为一个大型跨国公司。我们的数据通过分段从各种源系统进入 3NF 数据库。从这里开始,我们的 ELT 流程将数据移动到按维度建模的星型模式数据库中。

如果我可以重新开始,我肯定会放弃 3NF 步骤。当我第一次构建该层时,我认为它会增加真正的值(value)。我确信规范化会保护我的数据的完整性。我同样相信 3NF db 将是运行大型/复杂查询的最佳场所。

但在实践中,它减缓了我们的发展。大多数更改需要更新阶段、3NF 和星型模式数据库。

额外的层还增加了发布数据所需的时间。额外的转换、检查和对账都会加起来。

promise 的诚信改善从未实现。我现在意识到,因为我控制 ETL 和其中的验证过程,所以我可以确保我的数据既非规范化又准确。在报告数据时,我们控制每个表格中的每个单元格。我想得越多,我就越认为这是一个真正的机会。

大而复杂的查询是另一个被经验打破的神话。我现在认为需要编写复杂的报告查询是我的星型数据库的失败。发生这种情况时,我总是问自己:为什么这个问题不容易回答?答案通常是糟糕的表设计。最好在转换数据时进行繁重的工作。

运行 3NF 和 star 也为两个系统产生了分歧的机会。当这种情况发生时,通常是一个非常微妙的差异。两者都没有错,就其本身而言。相反,有可能 3NF 和 star 查询提出的问题略有不同,因此返回不同的结果。尽管在技术上是正确的,但这可能很难解释。随着时间的推移,即使是微小且可解释的差异也会削弱信心。

为我们的 3NF db 辩护,它确实使加载到星中更容易。但我很乐意用更复杂的 SSIS 包换掉一层。

说了这么多;如果没有深入了解他们的系统、要求、文化、技能等,很难向任何人推荐一种方法。阅读您的问题后,我相信您已经解决了所有这些问题,毫无疑问还有更多问题!最后,只有您可以决定最适合您情况的方法。一旦你下定决心,就坚持下去。一致性、清晰度和定义明确的方法比其他任何东西都重要。

关于data-warehouse - EDW Kimball VS Inmon,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41110932/

相关文章:

database - 有没有多键键值存储?

mysql - 分析/报告 - 相同或单独的数据库,哪个数据库?

mysql - 数据仓库任意字段

data-warehouse - 交易事实表方法

mysql - BI架构建议

sql-server - 劳动节与劳动节感恩

data-warehouse - 了解 ETL 过程

database - 从 2 个表开始的星型模式

ssis - 数据集市与立方体

data-warehouse - 为什么需要数据仓库?