apache-spark - PairRDD 上的 Join 会导致通过键共同定位数据吗？

我想了解两对 rdd 上的连接是如何工作的？是否会导致将两个具有相同键的 RDD 中的数据混入同一分区？如果是这种情况，最好在创建时使用partitionBy函数对RDD进行分区(通过连接属性)以减少洗牌？

谢谢安库尔

最佳答案

简短回答:是的，是的

至少 1 个 RDD 需要进行混洗。如果基本 RDD 的分区已知，则仅对连接的 RDD 进行混洗。否则，两个 RDD 将被打乱，以便匹配的键落在同一分区中。

关于apache-spark - PairRDD 上的 Join 会导致通过键共同定位数据吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28078044/

相关文章：

python - PySpark reducebykey 与字典