我是一名 ETL 开发人员,使用不同的工具来执行 ETL 任务。我们所有的项目中都会出现同样的问题:在构建数据仓库之前以及构建用于数据移动的 ETL 之前进行数据分析的重要性。通常我使用纯 SQL 进行数据分析(即查找不良数据、数据异常、计数、不同值等),因为 ETL 工具没有为这些提供良好的替代方案(我们的工具中有一些数据质量组件,但它们是没那么复杂)。一种选择是使用 R programming language或SPSS Modeler等等此类工具Exploratory Data Analysis 。但如果有数百万行数据,通常这些类型的工具不可用或不合格。
如何使用 SQL 进行此类分析?有可用的帮助脚本吗?在数据清理和 ETL 之前如何进行这种探索性数据分析?
最佳答案
将数据加载到某个临时系统中并使用 SSIS 中的数据分析器任务。使用此链接 http://gowdhamand.wordpress.com/2012/07/27/data-profiling-task-in-ssis/验证如何进行数据分析。希望这会有所帮助。
关于sql - 如何使用纯SQL进行探索性数据分析?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12835572/