我想了解两对 rdd 上的连接是如何工作的?是否会导致将两个具有相同键的 RDD 中的数据混入同一分区?如果是这种情况,最好在创建时使用partitionBy函数对RDD进行分区(通过连接属性)以减少洗牌?
谢谢 安库尔
最佳答案
简短回答:是的,是的
至少 1 个 RDD 需要进行混洗。如果基本 RDD 的分区已知,则仅对连接的 RDD 进行混洗。否则,两个 RDD 将被打乱,以便匹配的键落在同一分区中。
关于apache-spark - PairRDD 上的 Join 会导致通过键共同定位数据吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28078044/