apache-spark - pyspark : How to take a sample RDD from a huge RDD?

标签 apache-spark rdd pyspark

我在开发一个以 RDD 作为参数的函数时正在寻找调试选项。由于有一个巨大的 RDD,我想用它的一个子集来开发该功能。

如何创建 RDD 的子集? 新样本应该是一个 RDD ?

最佳答案

哦!

我明白了,我们可以使用示例函数

sample(self, withReplacement, fraction, seed=None)

返回此 RDD 的采样子集(依赖于 numpy,如果 numpy 不可用,则使用默认随机生成器)。

关于apache-spark - pyspark : How to take a sample RDD from a huge RDD?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31616683/

相关文章:

regex - 模式匹配-spark scala RDD

ggplot2 - 使用pyspark+databricks时如何绘制相关热图

python - PySpark - YARN 上不存在输入路径。在本地工作正常

apache-spark - 使用 Pyspark 与 Hbase 交互的最佳方式是什么

scala - 无法让 Spark 聚合器正常工作

apache-spark - 使用 Airflow dag run 创建 EMR 集群,任务完成后 EMR 将终止

apache-spark - Spark 流作业的可靠检查点(保持复杂状态)

apache-spark - Spark JavaRDD 与 JavaPairRDD?

apache-spark - 获取 Spark 数据框中所有分类变量的频率的有效方法是什么?

apache-spark - 与RDD相比,DataSet的性能优势