python - 将每个元素视为元组时,在 PySpark 中加入 2 个 RDD

标签 python join apache-spark pyspark

我不知道如何准确描述它,但例子是:

给出两个 RDD:

x = sc.parallelize([("a", 1), ("b", 4)])

y = sc.parallelize([("a", 2), ("c", 8)])

,我想得到结果:

[(("a", 1), ("a", 2)), (("a", 1), ("c", 8)), (("b", 4) ), ("a", 2)), (("b", 4), ("c", 8))]

PySpark document 中的join 转换似乎不适用于这个例子。

所以我想问一下我可以使用什么样的转换来获得预期的结果?谢谢!

最佳答案

阅读 spark document 后,我发现一种解决方法是:

x.cartesian(y)

关于python - 将每个元素视为元组时,在 PySpark 中加入 2 个 RDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30971697/

相关文章:

scala - 在 Zeppelin 和 Spark 中解析 CSV 中的日期时间信息

python - 通过过滤对 Pyspark Dataframe 进行分组

Python:安装egg时出现权限问题

python - NGINX:将请求详细信息放在自定义 404.json 返回上

python - 使用字典计算 python 数据框中的词频

php - 按条件分组连接两个表

python - 如何使用单个命令将多个值分配给多个键

sql - MySql 以 bool 值加入 View 表

postgresql - 获取相关表postgres之间至少一个巧合的值

java - Java 中 Spark Dataframe 的直方图