是否有最佳实践或众所周知的方法来发布/宣布(通过元数据等)哪些数据已加载、验证并且当前可用于数据仓库中的报告?
我见过几个用于执行此操作的内部系统 - 有些非常脆弱。
我可以寻找一些众所周知的概念或好的搜索词吗?
最佳答案
我不确定您到底在寻找什么,但用户到底在等待什么?
如果系统在运行明确且一致的日常 ETL 流程后再次可用,则可以轻松发送电子邮件、重新启用报告应用程序、更新 Intranet 站点上的状态图标等。
另一方面,如果他们正在等待一个非常具体的数据集(“东南亚地区小部件部门的第四季度销售数据是否可用?”),那么事情就会变得更加困难,因为每个人都在等待对不同的东西感兴趣。这甚至不是一个真正的技术决策,因为了解源数据何时完整且正确是一个业务问题,对于每个源系统或数据集可能有不同的答案。在我们的环境中,每日报告是完全自动化的,但每月或每年的报告不是完全自动化的,主要是因为经常存在不一致的事件或流程,这意味着我们仍然需要人工来确认报告可以运行。
我确信您可以使用元数据构建某种仪表板,显示某些数据何时加载,但它对于您的情况和用户来说非常具体,所以我不知道是否有任何通用的解决方案或模式。我想这将非常依赖于您的业务流程、报告架构(用于元数据)和报告工具。
关于architecture - 在数据仓库中发布数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9027502/