我一直在使用 AWS Athena 跨多个表查询存储在 S3 上的分析数据。一段时间以来,我提出了 2-3 个复杂的 SQL 查询(涉及多个连接)来提取相关数据。因为,Athena 用于临时查询(而不是预定义查询),除了处理几个 TB 和 30 分钟超时的高昂成本外,我正在寻找替代方案。
我能想到的两种选择是:
其中哪一个是更好的选择,或者对于这个问题有更好的标准技术?
最佳答案
我认为最好先执行 2(非规范化),然后执行 1(在优化的数据布局上运行 Presto)。
此外,具有基于成本的优化器的 Presto 可能值得一看:https://www.starburstdata.com/technical-blog/starburst-presto-on-aws-18x-faster-than-emr/
关于amazon-web-services - AWS Glue + Athena/Hive 是替代复杂 SQL 查询的正确选择吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51670680/