apache-spark - 如何列出 Spark shell 中定义的 RDD?

标签 apache-spark pyspark

在“spark-shell”或“pyspark”shell 中,我创建了许多 RDD,但找不到任何方法可以列出当前 Spark Shell session 中的所有可用 RDD?

最佳答案

在 Python 中,您可以简单地尝试过滤 globals按类型:

def list_rdds():
    from pyspark import RDD
    return [k for (k, v) in globals().items() if isinstance(v, RDD)]

list_rdds()
# []

rdd = sc.parallelize([])
list_rdds()
# ['rdd']

在 Scala REPL 中,您应该可以使用 $intp.definedTerms/$intp.typeOfTerm以类似的方式。

关于apache-spark - 如何列出 Spark shell 中定义的 RDD?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33840087/

相关文章:

python - 将文本文件读取到元组pyspark

azure - 如何超过 Databricks 上的长度限制 256

python - 如何将 pyspark 数据框列转换为 numpy 数组

python - 无法调用pyspark udf函数

python - 如何使用 LIKE 运算符作为 pyspark 中的 JOIN 条件作为列

scala - 如何仅将那些行(来自大表)与左小表中的键合并?

apache-spark - 如何使用 spark-csv 包在 HDFS 上仅读取 n 行大型 CSV 文件?

scala - Cassandra spark 连接器 joinWithCassandraTable 在具有不同名称的字段上

scala - mvn 测试错误 : java. lang.IllegalStateException:无法在已停止的 SparkContext 上调用方法

apache-spark - 如何在 pyspark 流应用程序中使用具有不同主题的两个不同流将数据从 Kafka 存储到 Redis?