javascript - 如何对 Hive 生成的平面文件运行即席 SQL 查询？

我们使用 Hive 分析我们的日志数据，并将聚合结果存储在 S3 上的每日分区文本字段中(我们称它们为“粗略”聚合)。

这些聚合结果相当小(每天不超过几 MB)，我们有一个 Javascript 仪表板可以加载和可视化这些数据的某些方面(我们称它们为“细粒度”聚合)。

现在我们使用 Javascript 代码执行“细粒度”聚合。为了简单起见，我也想在这里使用 SQL 查询。我想知道针对此类问题存在哪些最佳实践？

A) 我们可以在 Hive 中生成所有“细粒度”聚合。但是，在 Hive 中操作这些小数据集需要很长时间。

B) 我们可以在 S3 和 Javascript 之间引入一个可以运行 SQL 查询的“快速访问层”。您会推荐什么查询引擎？

最佳答案

使用Presto用于快速访问不是很大的数据集。 Presto 是一个内存中的分布式 SQL 查询引擎，针对交互式查询、星型模式连接(小维度的大事实表)进行了优化。无需磁盘写入的内存到内存数据传输是 Presto 的一个关键特性。您可以使用 Presto Hive connector 查询 Hive 表.

关于javascript - 如何对 Hive 生成的平面文件运行即席 SQL 查询？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30034936/

上一篇：hadoop - 为什么 HDFS 不适合需要低延迟的应用程序？

下一篇：shell - 复制 hadoop 目录中除 1 以外的所有文件

相关文章：

javascript - JavaScript 函数调用中的尾随逗号

javascript - 二进制搜索不起作用无法找到问题

sql - MSSQL 中的自动递增字母数字 ID

mysql - 如果另一列有多个值，如何选择按列分组的值

c# - 使用 TOP 1 插入和删除语句

apache-spark - 内存配置对于公平调度程序真的很重要吗？

javascript - jQuery简单树: Add a node programatically

javascript - 将对象解构与流类型相结合

java - org.apache.hive.service.cli.HiveSQLException : java. lang.NoClassDefFoundError:org/apache/hadoop/ipc/CallerContext$Builder

hadoop - Hadoop-当数据到达hdfs时执行脚本

javascript - 如何对 Hive 生成​​的平面文件运行即席 SQL 查询？

上一篇：hadoop - 为什么 HDFS 不适合需要低延迟的应用程序？

下一篇：shell - 复制 hadoop 目录中除 1 以外的所有文件

javascript - 如何对 Hive 生成的平面文件运行即席 SQL 查询？