我能想到的几个选项
- 使用 Redshift 连接器将 Spark 流回 s3
- 卸载到 S3 gzipped,然后使用命令行工具进行处理
不确定哪个更好。我不清楚如何轻松地将 Redshift 模式转换为 Parquet 可以吸收的东西,但也许 Spark 连接器会帮我处理这个问题。
最佳答案
不再需要 Spark。我们可以直接以 Parquet 格式将 Redshift 数据卸载到 S3。示例代码:
UNLOAD ('select-statement')
TO 's3://object-path/name-prefix'
FORMAT PARQUET
您可以在 UNLOAD - Amazon Redshift 找到更多信息
关于apache-spark - 如何将表从 redshift 导出为 Parquet 格式?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44606670/