amazon-web-services - 直接或通过 AWS Glue 数据目录将 Redshift Spectrum/AWS EMR 与 Hudi 连接

标签 amazon-web-services amazon-s3 amazon-emr amazon-redshift-spectrum apache-hudi

我正在尝试了解如何正确连接 Redshift Spectrum 与 Hudi 数据。

看起来我可以直接为 Apache Hudi 中管理的数据创建 Redshift 外部表，如以下文档 https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-tables.html 中所述。另一种方法是将 Hudi 与 AWS Glue 数据目录集成，如此处提到的 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hudi-how-it-works.html然后通过 AWS Glue 数据目录使用 Redshift Spectrum 访问 Hudi 表。

我对适用于 Apache Spark 的 AWS EMR 也有同样的需求。看来我可以直接从 EMR 或通过 AWS Glue 数据目录使用 Hudi。

现在我不明白该选择什么方式。您能否告知通过 AWS Glue 数据目录使用 Hudi 有什么好处，还是我需要直接从 Redshift Spectrum 和 AWS EMR 使用它？

最佳答案

鉴于使用 EMR 上的 Spark，您需要一个目录、Hive 元存储(如果愿意)，那么使用 AWS Glue Catalog 是一种选择。

如果您选择使用 Glue 作为元存储，则将其用作所有数据的源。除非错误明显，否则请使用 Spark 的 Hudi api。

关于amazon-web-services - 直接或通过 AWS Glue 数据目录将 Redshift Spectrum/AWS EMR 与 Hudi 连接，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/69152017/

上一篇：r - 使用分隔符分割字符串(括号中除外)，并保留分隔符

下一篇：database - 根据Cassandra中的查询结果创建新表

相关文章：

java - Hadoop 2 中的自定义 log4j appender

hadoop - Apache Hadoop 中的 job.submit 和 job.waitForComplete 有什么区别？

python-3.x - 如何使用boto查看EMR现货实例历史价格

amazon-web-services - AWS 胶水 : ETL to read S3 CSV files

node.js - 如何在 Elasticsearch 中对字段类型 '' 文本进行排序

python - 如何在没有 .pem 文件或替代 .pem 文件的情况下通过 AWS Lambda 使用 pysftp 连接 EC2

java - AmazonS3，如何检查上传是否成功？

amazon-web-services - AWS Cloudwatch 指标 - 如何将仪表板指标中的数字格式化为两个以上小数位

python - AWS S3 存储桶 Django 3.0 用户配置文件图像上传访问错误

ruby-on-rails - Rails 在上传时使用 stremio-ffmpeg gem 给电影加水印