我在开发一个以 RDD 作为参数的函数时正在寻找调试选项。由于有一个巨大的 RDD,我想用它的一个子集来开发该功能。
如何创建 RDD 的子集? 新样本应该是一个 RDD ?
最佳答案
哦!
我明白了,我们可以使用示例函数
sample(self, withReplacement, fraction, seed=None)
返回此 RDD 的采样子集(依赖于 numpy,如果 numpy 不可用,则使用默认随机生成器)。
关于apache-spark - pyspark : How to take a sample RDD from a huge RDD?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31616683/