join
返回一个 RDD,其中包含具有匹配键的所有元素对。
https://spark.apache.org/docs/1.6.2/api/python/pyspark.html#pyspark.RDD.join
示例:
trueDupsRDD = (rdd1.join(rdd2))
如何执行分离?
我尝试过:
notMatchingRDD = (rdd1.join(!rdd2))
最佳答案
使用subtractByKey
:
Return each (key, value) pair in C{self} that has no pair with matching key in C{other}.
rdd1.subtractByKey(rdd2)
关于python - 与 .join() pyspark 相反,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39281687/