我想从数据框中随机选择一定数量的行,我知道 sample 方法会这样做,但我担心我的随机性应该是均匀采样?所以,我想知道Spark on Dataframes的示例方法是否统一?
谢谢
最佳答案
这里有几个代码路径:
withReplacement = false && fraction > .4
然后它使用增强的随机数生成器( rng.nextDouble() <= fraction
)并让它完成工作。 这看起来会很统一。 withReplacement = false && fraction <= .4
然后它使用更复杂的算法( GapSamplingIterator
),这看起来也很统一。一目了然,看起来它也应该是统一的 withReplacement = true
它确实接近相同的事情,except it can duplicate by the looks of it , 所以这在我看来不会像前两个一样统一 关于apache-spark - SPARK Dataframes 上的采样方法是统一采样吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31633117/