我在 Spark 1.3.1 中观察到有趣的行为,其原因尚不清楚。
像 sc.textFile("...").takeSample(...)
这样简单的操作总是会导致两个阶段:
最佳答案
我能够重现这一点,关键是要关注 details
扩展。第一个和第二个在 takeSample
中的调用具有不同的行号。第一个是 Line 428 ,这是对 count
的调用,因此它会自行触发。第二个是Line 447 ,这是对 sample
本身的调用。这可能会让人感到困惑并且可能会被修复,但我不认为它是一个高优先级。
关于apache-spark - Spark的takeSample()结果分两个阶段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30786623/