apache-spark - 为什么Spark应用程序未在所有节点上运行

标签 apache-spark hadoop benchmarking

我安装了以下Spark基准测试:
https://github.com/BBVA/spark-benchmarks
我在8位工作人员的YARN上运行Spark,但在工作期间仅得到2个正在运行的执行程序(TestDFSIO)。
我还将executor-cores设置为9,但只有2个正在运行。
为什么会这样?

我认为问题出在YARN,因为我在Hadoop上遇到了与TestDFSIO类似(几乎)的问题。实际上,在作业开始时,只有两个节点运行,但是所有节点随后并行执行该应用程序!

请注意,我没有使用HDFS进行存储!

最佳答案

我解决了这个问题。我所做的是将每个执行程序的内核数设置为5(--executor-cores),将执行程序的总数设置为23(--num-executors),默认情况下,该数目为前2个。

关于apache-spark - 为什么Spark应用程序未在所有节点上运行,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56856734/

相关文章:

hadoop - Spark : Not able to read data from hive tables

database - 如何用spark-sql删除一个hive数据库?

ruby-on-rails - 使用 memcached 或 redis 的 Rails cache_store 不会产生性能提升

c - 尽可能高效地评估具有约 60,000 个短符号表达式的 vector (Matlab,C)

java - Spark 流: class cast exception for SerializedOffset

apache-spark - 如何使用多节点 Cassandra 集群设置 Spark?

hadoop - 为什么SQOOP默认启动4个映射器?

hadoop - Flume 代理未在不同机器上连接

hadoop - 检测YARN何时杀死容器

python - 使用 pytest.hookimpl 将 pytest 测试函数返回值写入文件