有没有办法根据 avro 模式直接从 parquet 文件在 Amazon Athena 中创建表?模式被编码到文件中,所以我需要自己实际创建 DDL 看起来很愚蠢。
我看到了this还有另一个duplication
但它们与 Hive 直接相关,它不适用于 Athena。 理想情况下,我正在寻找一种无需在控制台上定义即可以编程方式执行此操作的方法。
最佳答案
现在使用 AWS Glue 或多或少是可能的. Glue 可以抓取一堆不同的数据源,包括 Parquet files on S3 .发现的表被添加到 Glue 数据目录并可从 Athena 查询。根据您的需要,您可以安排 Glue 爬虫定期运行,或者您可以使用 Glue API 定义和运行爬虫。
如果您有许多共享模式的独立数据 block ,您还可以使用 partitioned table以减少为 Athena 提供新负载的开销。例如,我有一些每日转储加载到按日期分区的表中。只要架构不变,您接下来需要做的就是 MSCK REPAIR TABLE
。
关于java - Athena 从 parquet 模式创建表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43098859/