etl - 按照计划操作 AWS Redshift 中的数据

标签 etl amazon-redshift amazon-data-pipeline

当前设置:

  • SQL Server OLTP 数据库
  • 从 OLTP 更新的 AWS Redshift OLAP 数据库 每 20 分钟通过 SSIS

我们的客户只能访问 OLAP 数据库

要求:

一位客户需要创建一些额外的表并将其填充到计划中,这可以通过聚合 AWS Redshift 中已有的数据来完成。

挑战:

这仅适用于一位客户,因此我无法利用核心流程来填充 AWS;该流程必须是独立的,并且将移交给不使用 SSIS 且不想启动的客户。我正在考虑使用 Data Pipeline,但客户所在的市场尚未提供此功能。

问题:

我的替代方案是什么?我知道很多partners他们提供类似 ETL 的解决方案,但这似乎有些过头了,最终我想做的就是按计划执行一系列 SQL 语句,并进行某种形式的错误处理/警报。客户和管理层都倾向于不使用定制应用程序来执行此操作,因此预期使用数据管道。

最佳答案

要使用 datapipeline 将数据从 AWS Redshift 导出到另一个数据源,您可以遵循类似于 https://github.com/awslabs/data-pipeline-samples/tree/master/samples/RedshiftToRDS 的模板。使用它可以将数据从 Redshift 传输到 RDS。但您可以添加 JdbcDatabase ( http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-jdbcdatabase.html ),而不是使用 RDSDatabase 作为接收器。模板https://github.com/awslabs/data-pipeline-samples/blob/master/samples/oracle-backup/definition.json提供有关如何使用 JdbcDatabase 的更多详细信息。

https://github.com/awslabs/data-pipeline-samples/tree/master/samples中有很多这样的模板。可以作为引用。

关于etl - 按照计划操作 AWS Redshift 中的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40455871/

相关文章:

python - 使用windows用python打开word文档

amazon-web-services - AWS数据管道: how to add steps other than data nodes and activities

python - 在 BranchPython Operator 之后跳过 Airflow 2.0 任务

sql-server - SSIS 表达式生成器 - GetDate() 到字符串 (dd-MMM-yy)

amazon-web-services - 从 Kafka 读取数据到 AWS Redshift 的最佳实践

sql - 通过查看所有列删除重复的 SQL 行

amazon-web-services - 未找到分隔符错误 - 使用 Kinesis Firehose 从 s3 加载 AWS Redshift

mysql - 将 CSV 从 S3 上传到 MySQL RDS 第一行被截断

amazon-web-services - 是否可以通过 Cloudformation 在 AWS datapipeline 中创建数组管道对象?

mysql - mysql中缺少行