apache-spark - Spark的takeSample()结果分两个阶段

我在 Spark 1.3.1 中观察到有趣的行为，其原因尚不清楚。

像 sc.textFile("...").takeSample(...) 这样简单的操作总是会导致两个阶段:

enter image description here

最佳答案

我能够重现这一点，关键是要关注 details 扩展。第一个和第二个在 takeSample 中的调用具有不同的行号。第一个是 Line 428 ，这是对 count 的调用，因此它会自行触发。第二个是Line 447 ，这是对 sample 本身的调用。这可能会让人感到困惑并且可能会被修复，但我不认为它是一个高优先级。

关于apache-spark - Spark的takeSample()结果分两个阶段，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30786623/

上一篇：java - 属性文件中的中文字符未正确解码

下一篇：sql - 1 个工作日回到 SQL DB2

相关文章：

java - 是否可以从代码运行 spark yarn cluster？

apache-spark - 如何使 Spark 驱动程序对 Master 重启具有弹性？

apache-spark - 如何在Spark RDD中获取具有精确样本量的样本？

r - 在数据框中每组随机采样 n 行

R中具有多重概率的随机样本

python - 来自 df 的 Pandas 样本保持群体平衡

postgresql - 如何通过 Spark 中的 jdbc 连接到 docker 托管的 postgresql 数据库？

python - 将日期时间对象与 8601 字符串进行比较会给出错误的结果，为什么允许这样做？

java - 在 IntelliJ IDE 中将 Spark 与 Scala 项目集成时出错

android - ApiDemos 示例中 FragmentLayout 类中的奇怪 FragmentTransaction