python - 没有 SQLContext 的 pyspark 中的 clearCache

标签 python apache-spark pyspark apache-spark-sql

考虑 pySpark documentation对于 SQLContext 表示“从 Spark 2.0 开始,它已被 SparkSession 取代。”

如何在不使用 SQLContext 的情况下从内存缓存中删除所有缓存的表?

例如,spark 是一个 SparkSessionsc 是一个 sparkContext:

from pyspark.sql import SQLContext
SQLContext(sc, spark).clearCache()

最佳答案

我不认为 clearCache 在 pyspark 中除了 SQLContext 之外其他地方可用。下面的示例使用现有的 SparkContext 实例使用 SQLContext.getOrCreate 创建一个实例:

SQLContext.getOrCreate(sc).clearCache()

在 scala 中,虽然有一种更简单的方法可以直接通过 SparkSession 实现相同的目的:

spark.sharedState.cacheManager.clearCache()

Clay 提到的目录中的另一个选项:

spark.catalog.clearCache

最后一个来自 Jacek Laskowski 的 gitbooks:

spark.sql("CLEAR CACHE").collect

引用:https://jaceklaskowski.gitbooks.io/mastering-spark-sql/spark-sql-caching-and-persistence.html

关于python - 没有 SQLContext 的 pyspark 中的 clearCache,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55974820/

相关文章:

python - 比较两列以在 Spark DataFrame 中创建新列

pyspark - 如何确定 Spark 中 ALS.transImplicit 的偏好/置信度?

python - 使用 nltk 和 wordnet 对复数名词进行词形还原

python - 为什么使用不同的循环方法(Python)循环速度会有很大差异?

java - Spark - 按 HAVING 和数据框语法分组?

java - Tuple2 的 RDD 上的 Apache Spark forEach : returns one Value for all the Tuple2s in my RDD

python - 为什么 multiprocessing.Queue 有一个小的延迟,而(显然)multiprocessing.Pipe 却没有?

php - 混合 Python Web 平台 PHP,例如- Mediawiki、Wordpress 等

scala - 如何将正则表达式解析为整个 spark 数据框而不是每一列?

pyspark - 如何在不使用 StandardScaler 的情况下标准化 PySpark 中的列?