在“spark-shell”或“pyspark”shell 中,我创建了许多 RDD,但找不到任何方法可以列出当前 Spark Shell session 中的所有可用 RDD?
最佳答案
在 Python 中,您可以简单地尝试过滤 globals
按类型:
def list_rdds():
from pyspark import RDD
return [k for (k, v) in globals().items() if isinstance(v, RDD)]
list_rdds()
# []
rdd = sc.parallelize([])
list_rdds()
# ['rdd']
在 Scala REPL 中,您应该可以使用
$intp.definedTerms
/$intp.typeOfTerm
以类似的方式。
关于apache-spark - 如何列出 Spark shell 中定义的 RDD?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33840087/