apache-spark - 在 Spark Thrift 服务器中缓存 DataFrame

我有一个 Spark Thrift 服务器。我连接到 Thrift 服务器并获取 Hive 表的数据。如果我再次查询同一个表，它会再次加载内存中的文件并执行查询。

有什么方法可以使用 Spark Thrift Server 缓存表数据？如果是，请告诉我怎么做

最佳答案

两件事:

使用 CACHE LAZY TABLE 作为答案:Spark SQL: how to cache sql query result without using rdd.cache()和 cache tables in apache spark sql
使用 spark.sql.hive.thriftServer.singleSession=true 以便其他客户端可以使用此缓存表。

记住缓存是惰性的，所以它会在第一次计算时被缓存

关于apache-spark - 在 Spark Thrift 服务器中缓存 DataFrame，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45710364/