sql - 如何使用纯SQL进行探索性数据分析?

标签 sql ssis data-mining etl data-quality

我是一名 ETL 开发人员,使用不同的工具来执行 ETL 任务。我们所有的项目中都会出现同样的问题:在构建数据仓库之前以及构建用于数据移动的 ETL 之前进行数据分析的重要性。通常我使用纯 SQL 进行数据分析(即查找不良数据、数据异常、计数、不同值等),因为 ETL 工具没有为这些提供良好的替代方案(我们的工具中有一些数据质量组件,但它们是没那么复杂)。一种选择是使用 R programming languageSPSS Modeler等等此类工具Exploratory Data Analysis 。但如果有数百万行数据,通常这些类型的工具不可用或不合格。

如何使用 SQL 进行此类分析?有可用的帮助脚本吗?在数据清理和 ETL 之前如何进行这种探索性数据分析?

最佳答案

将数据加载到某个临时系统中并使用 SSIS 中的数据分析器任务。使用此链接 http://gowdhamand.wordpress.com/2012/07/27/data-profiling-task-in-ssis/验证如何进行数据分析。希望这会有所帮助。

关于sql - 如何使用纯SQL进行探索性数据分析?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12835572/

相关文章:

machine-learning - 关于简单自动编码器实现的问题

php - 一个语句中有多个之间

mysql - MySQL 中何时使用单引号、双引号和反引号

sql - 防止 SELECT 检索事务开始后提交的行

math - ID3 和 C4.5 : How Does "Gain Ratio" Normalize "Gain"?

machine-learning - 隐藏层的数量、隐藏层中的单元和历元,直到神经网络开始在训练数据上表现可接受

mysql - 如何判断mysql存储过程是否执行成功

sql-server - SQL Server 2017 开发人员版上的 SSIS

mysql - 使用 MySql .net 连接器设置 SSIS 时出错

sql - SSIS 部署 : SSIS Package run time error in SQL Server deployment