python - Pyspark RDD 收集前 163 行

有没有办法在不转换为 df 的情况下获取 rdd 的前 163 行？

我试过类似 newrdd = rdd.take(163) 的方法，但它返回一个列表，而 rdd.collect() 返回整个 rdd。

有没有办法做到这一点？或者，如果没有，是否有办法将列表转换为 rdd？

最佳答案

效率不是很高，但您可以zipWithIndex 和filter:

rdd.zipWithIndex().filter(lambda vi: vi[1] < 163).keys()

在实践中，简单地take 和parallelize 更有意义:

sc.parallelize(rdd.take(163))

关于python - Pyspark RDD 收集前 163 行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34213846/

相关文章：

python - 如果输入参数在 Django 模板中无效，如何抛出异常