python - 与 .join() pyspark 相反

标签 python apache-spark pyspark

join 返回一个 RDD,其中包含具有匹配键的所有元素对。

https://spark.apache.org/docs/1.6.2/api/python/pyspark.html#pyspark.RDD.join

示例:

 trueDupsRDD = (rdd1.join(rdd2))

如何执行分离?

我尝试过:

notMatchingRDD = (rdd1.join(!rdd2))

最佳答案

使用subtractByKey:

Return each (key, value) pair in C{self} that has no pair with matching key in C{other}.

rdd1.subtractByKey(rdd2)

关于python - 与 .join() pyspark 相反,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39281687/

相关文章:

apache-spark - PySpark:如何转置数据帧中的多列

dataframe - pyspark - 根据同一行中的其他列动态选择列内容

linux - 启动 jupyter-pyspark 内核时生成损坏的文件

python - 使用 pySpark 迭代数据框的每一行

python - Linux 服务器上的 PyMongo 和 Flask

python - 将第一个单元格与行和计数匹配的其他值进行比较

scala - Spark MLlib 的线性回归仅返回单调预测

python - 如何在 Python 中更好地控制循环增量?

python - 创建空数据框的 Pandas 错误

python - PySpark:如何在 PySpark SQL 中创建计算列?