java - Athena 从 parquet 模式创建表

标签 java amazon-web-services hive presto amazon-athena

有没有办法根据 avro 模式直接从 parquet 文件在 Amazon Athena 中创建表?模式被编码到文件中,所以我需要自己实际创建 DDL 看起来很愚蠢。

我看到了this还有另一个duplication

但它们与 Hive 直接相关,它不适用于 Athena。 理想情况下,我正在寻找一种无需在控制台上定义即可以编程方式执行此操作的方法。

最佳答案

现在使用 AWS Glue 或多或少是可能的. Glue 可以抓取一堆不同的数据源,包括 Parquet files on S3 .发现的表被添加到 Glue 数据目录并可从 Athena 查询。根据您的需要,您可以安排 Glue 爬虫定期运行,或者您可以使用 Glue API 定义和运行爬虫。

如果您有许多共享模式的独立数据 block ,您还可以使用 partitioned table以减少为 Athena 提供新负载的开销。例如,我有一些每日转储加载到按日期分区的表中。只要架构不变,您接下来需要做的就是 MSCK REPAIR TABLE

关于java - Athena 从 parquet 模式创建表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43098859/

相关文章:

java - 如何在 JPanel、JFrame 中移动 JButtons 和 JLabels 位置

Java 替换字符串末尾的换行符、逗号和空格

amazon-web-services - 恢复出厂设置的 AWS 帐户

hadoop - 如何按字符解析Hive中的数据&

csv - 如何将HDFS文件转换为csv或tsv。

用于查找 { 和数字组合的 Java 正则表达式

java - Executor服务设计模式

mysql - 尝试获取带有在线数据库的 Web 应用程序?真的很挣扎

amazon-web-services - 如何通过电子邮件发送 Cloudwatch 日志详细信息?

mysql - 配置单元使用 mysql 元存储