scala - Apache Spark 中的 reduce() 与 Fold()

reduce 与 fold 在技术实现方面有何区别？

我知道它们的签名有所不同，因为 fold 接受附加参数(即初始值)，这些参数会添加到每个分区输出中。

提前致谢。

最佳答案

在性能方面没有任何实际差异:

这两种方法都使用 foldLeft implemented like this 的简单循环来顺序保留可变累加器和处理分区。 :

foreach (x => result = op(result, x))

for (x <- self) {
  if (first) {
    ...
  }
  else acc = op(acc, x)
}

Spark 中这些方法之间的实际差异仅与它们在空集合上的行为以及使用可变缓冲区的能力有关(可以说它与性能有关)。您可以在 Why is the fold action necessary in Spark? 中找到一些讨论。

而且整体处理模型没有什么区别:

关于scala - Apache Spark 中的 reduce() 与 Fold()，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36056895/

相关文章：

scala - Akka HTTP 客户端 websocket 流的定义