有没有办法在不转换为 df 的情况下获取 rdd 的前 163 行?
我试过类似 newrdd = rdd.take(163)
的方法,但它返回一个列表,而 rdd.collect()
返回整个 rdd。
有没有办法做到这一点?或者,如果没有,是否有办法将列表转换为 rdd?
最佳答案
效率不是很高,但您可以zipWithIndex
和filter
:
rdd.zipWithIndex().filter(lambda vi: vi[1] < 163).keys()
在实践中,简单地take
和parallelize
更有意义:
sc.parallelize(rdd.take(163))
关于python - Pyspark RDD 收集前 163 行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34213846/