apache-spark - 主节点是否在 Spark 中执行实际任务?

标签 apache-spark

我的问题听起来可能很愚蠢,但它困扰了我很长时间。

enter image description here

上图是一个分布式Spark应用的组件。我认为这张图表明 ma​​ster node 永远不会执行实际任务,而只是充当集群管理器。是真的吗?

对了,这里的tasks是指用户提交的任务。

最佳答案

是的,主节点执行驱动进程,不运行任务。任务在工作节点上的执行程序进程中运行。从 CPU 的角度来看,主节点很少有压力,但根据广播变量、累加器和 collect 的使用方式,它可能会在 RAM 使用方面承受很大压力。

关于apache-spark - 主节点是否在 Spark 中执行实际任务?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38675059/

相关文章:

python - Spyder IDE 看不到 pyspark 模块

sql - Spark / hive : how to get percent of positive values in a column?

scala - 调用 stddev 超过 1,000 列时 SparkSQL 作业失败

python - 从 PySpark ML 中的 DecisionTreeClassifier 获取 toDebugString

scala - 在 Spark 数据框中创建子字符串列

apache-spark - 重新启动 Spark 后如何在 Web UI 中查看 'finished App' 详细信息

performance - Magic committer 没有提高 Spark3+Yarn3+S3 设置中的性能

apache-spark - 如何使用 PySpark 保存 IDFmodel

apache-spark - 如何将javaagent传递给emr Spark应用程序?

scala - Spark : How can DataFrame be Dataset[Row] if DataFrame's have a schema