apache-spark - 如何将表从 redshift 导出为 Parquet 格式？

标签 apache-spark amazon-redshift parquet

我能想到的几个选项

使用 Redshift 连接器将 Spark 流回 s3
卸载到 S3 gzipped，然后使用命令行工具进行处理

不确定哪个更好。我不清楚如何轻松地将 Redshift 模式转换为 Parquet 可以吸收的东西，但也许 Spark 连接器会帮我处理这个问题。

最佳答案

不再需要 Spark。我们可以直接以 Parquet 格式将 Redshift 数据卸载到 S3。示例代码:

UNLOAD ('select-statement')
TO 's3://object-path/name-prefix'
FORMAT PARQUET

您可以在 UNLOAD - Amazon Redshift 找到更多信息

关于apache-spark - 如何将表从 redshift 导出为 Parquet 格式？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/44606670/

上一篇：Angular ChangeDetectionStrategy.OnPush 与发出事件的子组件

下一篇：jenkins - 如何使用 Hudson 类和 groovy 从 jenkins 工作中获得最后一次成功构建

相关文章：

java - 在 Spark Streaming 中调用 updateStateByKey 时出错

amazon-s3 - S3 中的最佳最大 Parquet 文件大小

amazon-redshift - 您可以在单个 Redshift 查询中同时使用 AVG() 和 PERCENTILE_DISC() 函数吗？

amazon-web-services - AWS - 启用延迟维护的 RedShift CloudFormation

java - Parquet Writer 到缓冲区或字节流

python - 使用 AWS Lambda (Python 3) 读取存储在 S3 中的 Parquet 文件

scala - Spark 2.2 : Load org. apache.spark.ml.feature.LabeledPoint 来自文件

linux - 在 Spark 中将 IP 地址设置为 spark.driver.host 而不是主机名？

hadoop - 提交 Spark 的工作绩效

mysql - Redshift - SQL Left Join 不适用于相关子查询和聚合函数

©2024 IT工具网联系我们