apache-spark - pyspark : How to take a sample RDD from a huge RDD?

我在开发一个以 RDD 作为参数的函数时正在寻找调试选项。由于有一个巨大的 RDD，我想用它的一个子集来开发该功能。

如何创建 RDD 的子集？新样本应该是一个 RDD ？

最佳答案

哦!

我明白了，我们可以使用示例函数

sample(self, withReplacement, fraction, seed=None)

返回此 RDD 的采样子集(依赖于 numpy，如果 numpy 不可用，则使用默认随机生成器)。

关于apache-spark - pyspark : How to take a sample RDD from a huge RDD?，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31616683/

相关文章：

regex - 模式匹配-spark scala RDD