我不知道如何准确描述它,但例子是:
给出两个 RDD:
x = sc.parallelize([("a", 1), ("b", 4)])
y = sc.parallelize([("a", 2), ("c", 8)])
,我想得到结果:
[(("a", 1), ("a", 2)), (("a", 1), ("c", 8)), (("b", 4) ), ("a", 2)), (("b", 4), ("c", 8))]
PySpark document 中的join
转换似乎不适用于这个例子。
所以我想问一下我可以使用什么样的转换来获得预期的结果?谢谢!
最佳答案
阅读 spark document 后,我发现一种解决方法是:
x.cartesian(y)
关于python - 将每个元素视为元组时,在 PySpark 中加入 2 个 RDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30971697/