java - Spark 列出所有缓存的 RDD 名称并取消持久化

标签 java scala dataframe apache-spark rdd

我是 Apache Spark 的新手,我创建了几个 RDD 和 DataFrame,并缓存了它们,现在我想使用下面的命令来取消其中一些

rddName.unpersist()

但我不记得他们的名字了。我使用了 sc.getPersistentRDDs 但输出不包含名称。我还使用浏览器查看缓存的 rdd,但同样没有名称信息。我错过了什么吗?

最佳答案

PySparkers:getPersistentRDDs isn't yet implemented in Python ,因此通过深入研究 Java 来取消持久化 RDD:

for (id, rdd) in spark.sparkContext._jsc.getPersistentRDDs().items():
    rdd.unpersist()

关于java - Spark 列出所有缓存的 RDD 名称并取消持久化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38508577/

相关文章:

java - 线程 "main"中出现异常

java - Soot:源文件更改后重新加载类

scala - Scala 中的 Case 对象与枚举

scala - 将 List[String] 或 Seq[String] 传递给 Spark 中的 groupBy

r - 简单的data.frame reshape

python - Pandas 比较列表的列

python - Pandas 中正/负后的行数

java - "synchronized-with-resource"获取锁对象也必须同步怎么办?

java - main() 是类方法吗? ( java )

scala - 如何在 Scala 中将字符串列表转换为另一种形式?