我实际上是在问自己使用 Spark SQL 和 Hive 进行实时分析的性能。 我知道 Hive 是为批处理而创建的,而 Spark 是用来进行快速查询的。
但是,将 Spark SQL 与 Hive 结合使用可以让我进行实时查询吗?或者它只会进行最快的查询但不是实时的。 我应该使用其他数据仓库而不是 Hive,例如 Hbase 吗?
提前致谢, 弗洛里安
最佳答案
虽然 Spark 比 Hive 快得多,但它可能仍然不是为网站提供服务的理想解决方案。因此,Spark SQL 是否可以执行“实时”查询在很大程度上取决于您认为实时的时间线类型、您的数据集是否足够小以缓存在内存中,以及您的查询是否能够利用分区。
关于hadoop - Hive 上的实时 Spark SQL,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31240230/