apache-spark - PairRDD 上的 Join 会导致通过键共同定位数据吗?

标签 apache-spark

我想了解两对 rdd 上的连接是如何工作的?是否会导致将两个具有相同键的 RDD 中的数据混入同一分区?如果是这种情况,最好在创建时使用partitionBy函数对RDD进行分区(通过连接属性)以减少洗牌?

谢谢 安库尔

最佳答案

简短回答:是的,是的

至少 1 个 RDD 需要进行混洗。如果基本 RDD 的分区已知,则仅对连接的 RDD 进行混洗。否则,两个 RDD 将被打乱,以便匹配的键落在同一分区中。

关于apache-spark - PairRDD 上的 Join 会导致通过键共同定位数据吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28078044/

相关文章:

python - PySpark reducebykey 与字典

apache-spark - Spark : Programatic schema dynamic column mapping

python-3.x - aws emr 无法在 Bootstrap 上更改默认的 pyspark python

java - 如何从csv文件中读取自定义格式的时间?

scala - Spark 指数移动平均线

apache-spark - 从 Cassandra 读取数据时如何控制分区数?

python - 检索数据框中唯一的列组合的任意行

scala - Spark独立模式: How to compress spark output written to HDFS

apache-spark - 当所有列都不在源中时,有没有办法在 Spark/Databricks 合并查询上返回 "set *"?

apache-spark - Spark SQL 中的 DataFrame.select() 和 DataFrame.toDF() 有什么区别