etl - 按照计划操作 AWS Redshift 中的数据

当前设置:

我们的客户只能访问 OLAP 数据库

要求:

一位客户需要创建一些额外的表并将其填充到计划中，这可以通过聚合 AWS Redshift 中已有的数据来完成。

挑战:

这仅适用于一位客户，因此我无法利用核心流程来填充 AWS；该流程必须是独立的，并且将移交给不使用 SSIS 且不想启动的客户。我正在考虑使用 Data Pipeline，但客户所在的市场尚未提供此功能。

问题:

我的替代方案是什么？我知道很多partners他们提供类似 ETL 的解决方案，但这似乎有些过头了，最终我想做的就是按计划执行一系列 SQL 语句，并进行某种形式的错误处理/警报。客户和管理层都倾向于不使用定制应用程序来执行此操作，因此预期使用数据管道。

最佳答案

要使用 datapipeline 将数据从 AWS Redshift 导出到另一个数据源，您可以遵循类似于 https://github.com/awslabs/data-pipeline-samples/tree/master/samples/RedshiftToRDS 的模板。使用它可以将数据从 Redshift 传输到 RDS。但您可以添加 JdbcDatabase ( http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-jdbcdatabase.html )，而不是使用 RDSDatabase 作为接收器。模板https://github.com/awslabs/data-pipeline-samples/blob/master/samples/oracle-backup/definition.json提供有关如何使用 JdbcDatabase 的更多详细信息。

关于etl - 按照计划操作 AWS Redshift 中的数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40455871/

相关文章：

python - 使用windows用python打开word文档