apache-spark - 为什么Spark应用程序未在所有节点上运行

标签 apache-spark hadoop benchmarking

我安装了以下Spark基准测试:
https://github.com/BBVA/spark-benchmarks
我在8位工作人员的YARN上运行Spark，但在工作期间仅得到2个正在运行的执行程序(TestDFSIO)。
我还将executor-cores设置为9，但只有2个正在运行。
为什么会这样？

我认为问题出在YARN，因为我在Hadoop上遇到了与TestDFSIO类似(几乎)的问题。实际上，在作业开始时，只有两个节点运行，但是所有节点随后并行执行该应用程序!

请注意，我没有使用HDFS进行存储!

最佳答案

我解决了这个问题。我所做的是将每个执行程序的内核数设置为5(--executor-cores)，将执行程序的总数设置为23(--num-executors)，默认情况下，该数目为前2个。

关于apache-spark - 为什么Spark应用程序未在所有节点上运行，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56856734/

上一篇：docker - Dockerfile错误，运行docker时出现 “<filename> not found”

下一篇：heroku - 将Heroku流程类型部署到各个应用程序

database - 如何用spark-sql删除一个hive数据库？

ruby-on-rails - 使用 memcached 或 redis 的 Rails cache_store 不会产生性能提升

c - 尽可能高效地评估具有约 60,000 个短符号表达式的 vector (Matlab，C)

java - Spark 流: class cast exception for SerializedOffset

apache-spark - 如何使用多节点 Cassandra 集群设置 Spark？

hadoop - 为什么SQOOP默认启动4个映射器？

hadoop - Flume 代理未在不同机器上连接

hadoop - 检测YARN何时杀死容器

python - 使用 pytest.hookimpl 将 pytest 测试函数返回值写入文件