我正在尝试了解如何正确连接 Redshift Spectrum 与 Hudi 数据。
看起来我可以直接为 Apache Hudi 中管理的数据创建 Redshift 外部表,如以下文档 https://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-external-tables.html 中所述。另一种方法是将 Hudi 与 AWS Glue 数据目录集成,如此处提到的 https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-hudi-how-it-works.html然后通过 AWS Glue 数据目录使用 Redshift Spectrum 访问 Hudi 表。
我对适用于 Apache Spark 的 AWS EMR 也有同样的需求。看来我可以直接从 EMR 或通过 AWS Glue 数据目录使用 Hudi。
现在我不明白该选择什么方式。您能否告知通过 AWS Glue 数据目录使用 Hudi 有什么好处,还是我需要直接从 Redshift Spectrum 和 AWS EMR 使用它?
最佳答案
鉴于使用 EMR 上的 Spark,您需要一个目录、Hive 元存储(如果愿意),那么使用 AWS Glue Catalog 是一种选择。
如果您选择使用 Glue 作为元存储,则将其用作所有数据的源。除非错误明显,否则请使用 Spark 的 Hudi api。
关于amazon-web-services - 直接或通过 AWS Glue 数据目录将 Redshift Spectrum/AWS EMR 与 Hudi 连接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/69152017/