apache-spark - 如何列出 Spark shell 中定义的 RDD？

在“spark-shell”或“pyspark”shell 中，我创建了许多 RDD，但找不到任何方法可以列出当前 Spark Shell session 中的所有可用 RDD？

最佳答案

在 Python 中，您可以简单地尝试过滤 globals按类型:

def list_rdds():
    from pyspark import RDD
    return [k for (k, v) in globals().items() if isinstance(v, RDD)]

list_rdds()
# []

rdd = sc.parallelize([])
list_rdds()
# ['rdd']

在 Scala REPL 中，您应该可以使用 $intp.definedTerms/$intp.typeOfTerm以类似的方式。

关于apache-spark - 如何列出 Spark shell 中定义的 RDD？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/33840087/

上一篇：tensorflow - 什么是具有强度 1 边缘矩阵的设备互连 StreamExecutor

下一篇：admob - 我该选择谁作为我的Admob广告技术提供商

相关文章：

python - 将文本文件读取到元组pyspark

azure - 如何超过 Databricks 上的长度限制 256

python - 如何将 pyspark 数据框列转换为 numpy 数组

python - 无法调用pyspark udf函数

python - 如何使用 LIKE 运算符作为 pyspark 中的 JOIN 条件作为列

scala - 如何仅将那些行(来自大表)与左小表中的键合并？

apache-spark - 如何使用 spark-csv 包在 HDFS 上仅读取 n 行大型 CSV 文件？

scala - Cassandra spark 连接器 joinWithCassandraTable 在具有不同名称的字段上

scala - mvn 测试错误 : java. lang.IllegalStateException:无法在已停止的 SparkContext 上调用方法

apache-spark - 如何在 pyspark 流应用程序中使用具有不同主题的两个不同流将数据从 Kafka 存储到 Redis？