apache-spark - 如何获取Pyspark中RDD的大小？

我对Apache Spark和Python相对较新，并且想知道如何获得RDD的大小。我有一个RDD看起来像这样:

[[‘ID: 6993.1066',
  'Time: 15:53:43',
  'Lab: West',
  'Lab-Tech: Nancy McNabb, ',
  '\tBob Jones, Harry Lim, ',
  '\tSue Smith, Will Smith, ',
  '\tTerry Smith, Nandini Chandra, ',
  ]]

pyspark中是否有方法或函数可以确定RDD中有多少个元组？上面的一个有7。

Scala类似于:myRDD.length。

最佳答案

对于RDD单个元素的大小，这似乎是一种方法

>>> rdd = sc.parallelize([(1,2,'the'),(5,2,5),(1,1,'apple')])
>>> rdd.map(lambda x: len(x)).collect()
[3, 3, 3]

对于RDD内的整体元素计数

>>> rdd.count()
3

关于apache-spark - 如何获取Pyspark中RDD的大小？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/48898650/

上一篇：fiware-orion - 从 Orion Context Broker 订阅到另一个 Orion Context Broker 不起作用

下一篇：unit-testing - 使用 ServiceLocator 进行单元测试

相关文章：

python - 如何在 pyspark 中对具有动态列的表进行透视

python - 如何获取空python数组中的dataFrame数组值

amazon-web-services - 使用 AWS Glue 时是否有可以访问的临时文件夹？

python - 如何使用pyspark从字符串中提取数字格式

api - Databricks Job API 使用单节点集群创建作业

scala - 图 : Is it possible to execute a program on each vertex without receiving a message?

maven - 是否可以针对 Hadoop 2.5.1 构建 Apache Spark

scala - 使用 FlatMap 使用 Spark 和 Scala 将列名称附加到元素

csv - 如何在 PySpark 中使用 read.csv 跳过多行

python - 使用 SQlcontext 在 spark 中加载我的 csv 时出错