apache-spark - Spark 和分析或执行计划

标签 apache-spark pyspark

spak 中是否有任何工具可以帮助理解代码的解释和执行方式。像分析工具或执行计划的详细信息,以帮助优化代码。

例如,我已经看到最好在加入它们之前在连接键上对两个数据帧进行分区以避免额外的洗牌。我们怎么能弄明白呢?

最佳答案

正如 Pushkr 所说,有了数据帧和数据集,我们可以使用 .explain() 方法来显示派生、分区和最终的 shuffle。

使用 RDD,我们可以使用 toDebugString 来获得相同的结果。
此外,还有依赖关系来指示新的 rdd 是从前一个具有窄依赖还是宽依赖的衍生而来。

关于apache-spark - Spark 和分析或执行计划,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43166954/

相关文章:

scala - 如何在 Scala 和 Apache Spark 中连接两个 DataFrame?

apache-spark - 无法在python的 yarn 簇模式下读取jceks文件

sql - 如何在 Spark 中通过组聚合滚动时间窗口

git - Databricks 从存储库内的 python lib 导入/复制数据

caching - Spark 缓存是否会以任何时间间隔自动更新数据的新值?

Pyspark 错误 :py4j. java_gateway :An error occurred while trying to connect to the Java server (127. 0.0.1:50532)

apache-spark - Spark 包标志与 jars 目录?

apache-spark - PySpark 值错误

scheduled-tasks - 如何安排 BigQuery 和 Dataproc 进行机器学习

string - Pyspark:如何将字符串(从密集向量创建)转换回密集向量?