hadoop - Hive 上的实时 Spark SQL

标签 hadoop apache-spark hive hdfs apache-spark-sql

我实际上是在问自己使用 Spark SQL 和 Hive 进行实时分析的性能。 我知道 Hive 是为批处理而创建的,而 Spark 是用来进行快速查询的。

但是,将 Spark SQL 与 Hive 结合使用可以让我进行实时查询吗?或者它只会进行最快的查询但不是实时的。 我应该使用其他数据仓库而不是 Hive,例如 Hbase 吗?

提前致谢, 弗洛里安

最佳答案

虽然 Spark 比 Hive 快得多,但它可能仍然不是为网站提供服务的理想解决方案。因此,Spark SQL 是否可以执行“实时”查询在很大程度上取决于您认为实时的时间线类型、您的数据集是否足够小以缓存在内存中,以及您的查询是否能够利用分区。

关于hadoop - Hive 上的实时 Spark SQL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31240230/

相关文章:

hadoop - DataNode 未在任何节点上启动

hadoop - HDFS有什么选择吗?

java - 无法连接 Spark-Cloudant

bash - 将项目目录设置为Dockerfile中Entrypoint的Workdir

apache-spark - 读取 Hive 表的空 Spark 数据集

arrays - Presto查询行数组

hadoop - 色调配置错误 -/etc/hue/conf.empty - 检测到潜在的错误配置

scala - Spark数据集联合重置类变量

hadoop - 从Apache Hive插入表

python - 如何使用 Spark SQL 识别 Hive 表中的分区列