apache-spark - 我们应该在 dataframe 上使用 groupBy 还是 reduceBy

<分区>

虽然groupBy apache 中的数据框会产生 Spark ，但随后会与数据框中的另一列进行聚合。有任何性能问题吗？ reduceBy 是更好的选择吗？

df.groupBy("primaryKey").agg(max("another column"))

最佳答案

在 groupBy 中，reduce 作业将按顺序执行，但在 reduceByKey 中，内部 spark 并行运行多个 reduce 作业，因为它知道 key 并针对 key 运行 reduce。 ReduceByKey 提供比 groupBy 更好的性能。您可以对两者运行聚合。

关于apache-spark - 我们应该在 dataframe 上使用 groupBy 还是 reduceBy，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49505101/

相关文章：

r - 如何按两个条件进行分组并计算所有行是否满足另一个条件