apache-spark - Spark的takeSample()结果分两个阶段

标签 apache-spark sample

我在 Spark 1.3.1 中观察到有趣的行为,其原因尚不清楚。

sc.textFile("...").takeSample(...) 这样简单的操作总是会导致两个阶段:

enter image description here

最佳答案

我能够重现这一点,关键是要关注 details 扩展。第一个和第二个在 takeSample 中的调用具有不同的行号。第一个是 Line 428 ,这是对 count 的调用,因此它会自行触发。第二个是Line 447 ,这是对 sample 本身的调用。这可能会让人感到困惑并且可能会被修复,但我不认为它是一个高优先级。

关于apache-spark - Spark的takeSample()结果分两个阶段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30786623/

相关文章:

java - 是否可以从代码运行 spark yarn cluster?

apache-spark - 如何使 Spark 驱动程序对 Master 重启具有弹性?

apache-spark - 如何在Spark RDD中获取具有精确样本量的样本?

r - 在数据框中每组随机采样 n 行

R中具有多重概率的随机样本

python - 来自 df 的 Pandas 样本保持群体平衡

postgresql - 如何通过 Spark 中的 jdbc 连接到 docker 托管的 postgresql 数据库?

python - 将日期时间对象与 8601 字符串进行比较会给出错误的结果,为什么允许这样做?

java - 在 IntelliJ IDE 中将 Spark 与 Scala 项目集成时出错

android - ApiDemos 示例中 FragmentLayout 类中的奇怪 FragmentTransaction