我安装了以下Spark基准测试:
https://github.com/BBVA/spark-benchmarks
我在8位工作人员的YARN上运行Spark,但在工作期间仅得到2个正在运行的执行程序(TestDFSIO)。
我还将executor-cores
设置为9,但只有2个正在运行。
为什么会这样?
我认为问题出在YARN,因为我在Hadoop上遇到了与TestDFSIO类似(几乎)的问题。实际上,在作业开始时,只有两个节点运行,但是所有节点随后并行执行该应用程序!
请注意,我没有使用HDFS进行存储!
最佳答案
我解决了这个问题。我所做的是将每个执行程序的内核数设置为5(--executor-cores
),将执行程序的总数设置为23(--num-executors
),默认情况下,该数目为前2个。
关于apache-spark - 为什么Spark应用程序未在所有节点上运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56856734/