apache-spark - 在 Spark Thrift 服务器中缓存 DataFrame

标签 apache-spark apache-spark-sql spark-thriftserver

我有一个 Spark Thrift 服务器。我连接到 Thrift 服务器并获取 Hive 表的数据。如果我再次查询同一个表,它会再次加载内存中的文件并执行查询。

有什么方法可以使用 Spark Thrift Server 缓存表数据?如果是,请告诉我怎么做

最佳答案

两件事:

记住缓存是惰性的,所以它会在第一次计算时被缓存

关于apache-spark - 在 Spark Thrift 服务器中缓存 DataFrame,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45710364/

相关文章:

apache-spark - 使用 beeline 客户端通过 Spark thrift 服务器查询 Iceberg 表时出现错误?

hadoop - Flume流GZ文件

hadoop - java中通过Spark存储orc格式

apache-spark - 为 spark thrift 服务器提供仓库目录的路径

ssl - 与二进制模式的 Spark Thrift 服务器的通信是否安全传输?

scala - 计算 Spark DataFrame 中非空值的数量

apache-spark - yarn 上产生 Spark ,容器退出,退出代码为非零143

scala - 使用 scala 2.12.10 时 Spark 的 pom.xml 依赖项

azure - Spark 可以写入 Azure Datalake Gen2 吗?

python - 创建合并其他两个列的 Pyspark DataFrame 列,为什么我收到 'unicode' 对象没有属性 isNull 的错误?