hadoop - Hadoop YARN上的Spark-执行器丢失

标签 hadoop apache-spark yarn apache-spark-1.5

我有一个由3台运行Hadoop和Spark-1.5.2的macOS计算机组成的集群(尽管与Spark-2.0.0一样,存在相同的问题)。使用“yarn”作为Spark主URL,我遇到一个奇怪的问题,其中任务仅分配给3台计算机中的2台。

基于Hadoop仪表板(主服务器上的端口8088),很明显,所有3个节点都是集群的一部分。但是,我运行的任何Spark作业仅使用2个执行程序。

例如,这是长时间运行JavaWordCount示例的“执行程序”选项卡:
enter image description here
“batservers”是大师。应该有一个附加的从服务器“batservers2”,但它并不存在。

为什么会这样呢?

请注意,除了为YARN资源管理器和节点管理器提供额外内存的规定外,我的YARN或Spark(或就此而言,HDFS)配置都没有异常。

最佳答案

值得注意的是,只需要详细查看spark-submit帮助消息即可找到答案:

YARN-only:

...

--num-executors NUM Number of executors to launch (Default: 2).



如果我在spark-submit命令中指定--num-executors 3,则使用第3个节点。

关于hadoop - Hadoop YARN上的Spark-执行器丢失,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39967805/

相关文章:

windows - 运行 MapReduce 作业时出错 : not a valid Inet address

hadoop - 如何配置MR作业中的 map 以批量执行?

hadoop - tez session 没有在 hive 中开始

apache-spark - 分别配置Spark和Hadoop(哪个版本将hadoop与spark配合使用)

apache-spark - Spark Streaming 应用程序的核心用法

scala - 方法参数是否触发 Spark 中的序列化?

apache-spark - 为什么vcore总是等于YARN上Spark中的节点数?

hadoop - 从多个服务器加载数据时避免数据重复

apache-spark - 为什么在完成作业和关闭 Spark 之间会发生磁盘繁忙尖峰?

postgresql - 有人在 cloudera 5.2.0 上使用 hadoop_fdw 吗?