apache-spark - SPARK Dataframes 上的采样方法是统一采样吗？

我想从数据框中随机选择一定数量的行，我知道 sample 方法会这样做，但我担心我的随机性应该是均匀采样？所以，我想知道Spark on Dataframes的示例方法是否统一？

谢谢

最佳答案

这里有几个代码路径:

如 withReplacement = false && fraction > .4然后它使用增强的随机数生成器( rng.nextDouble() <= fraction )并让它完成工作。 这看起来会很统一。

如 withReplacement = false && fraction <= .4然后它使用更复杂的算法( GapSamplingIterator )，这看起来也很统一。一目了然，看起来它也应该是统一的

如 withReplacement = true它确实接近相同的事情，except it can duplicate by the looks of it , 所以这在我看来不会像前两个一样统一

关于apache-spark - SPARK Dataframes 上的采样方法是统一采样吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31633117/

相关文章：

r - 为随机抽样构建 R 循环