apache-spark - SPARK Dataframes 上的采样方法是统一采样吗?

标签 apache-spark sample spark-dataframe

我想从数据框中随机选择一定数量的行,我知道 sample 方法会这样做,但我担心我的随机性应该是均匀采样?所以,我想知道Spark on Dataframes的示例方法是否统一?

谢谢

最佳答案

这里有几个代码路径:

  • withReplacement = false && fraction > .4然后它使用增强的随机数生成器( rng.nextDouble() <= fraction )并让它完成工作。 这看起来会很统一。
  • withReplacement = false && fraction <= .4然后它使用更复杂的算法( GapSamplingIterator ),这看起来也很统一。一目了然,看起来它也应该是统一的
  • withReplacement = true它确实接近相同的事情,except it can duplicate by the looks of it , 所以这在我看来不会像前两个一样统一
  • 关于apache-spark - SPARK Dataframes 上的采样方法是统一采样吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31633117/

    相关文章:

    r - 为随机抽样构建 R 循环

    r - 列出样本空间?

    scala - Cassandra 全表转储到 HDFS

    scala - Apache Spark : multiple outputs in one map task

    apache-spark - 如何在PySpark管道中使用XGboost

    apache-spark - 在 PySpark 的 DataFrame 中聚合列数组?

    scala - 生产中的 Spark Structured Streaming 检查点使用

    从数据框或矩阵中随机采样连续行

    scala - 如何跨 Array[DataFrame] 组合(加入)信息

    apache-spark - 如何在Spark中分区和写入DataFrame而不删除没有新数据的分区?