hadoop - Spark Worker和Executors核心

标签 hadoop apache-spark yarn

我在HDFS上有一个以YARN模式运行的Spark群集。我启动了一个具有2个内核和2g内存的工作程序。然后，我提交了具有1个具有3个核心的执行程序的动态配置的作业。不过，我的工作仍然可以执行。有人可以解释一下启动该工作程序的内核数量与为执行程序请求的内核数量之间的区别。我的理解是，由于执行者在 worker 内部运行，因此他们获得的资源无法超过 worker 可用的资源。

最佳答案

检查yarn-site.xml中的参数yarn.nodemanager.resource.cpu-vcores。

yarn.nodemanager.resource.cpu-vcores控制每个节点上的容器使用的最大核心总数。

关于hadoop - Spark Worker和Executors核心，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/41585589/

上一篇：hadoop - 一个查询运行map reduce，另一个查询不运行map reduce

下一篇：hadoop - 我们可以使用带有Snappy压缩的Hive表使用TEXT FILE格式吗？

相关文章：

hadoop - 使用水槽获取Twitter数据

sql - 将数组转换为 Map

hadoop - 在 yarn 集群模式 AccessControlException 上执行 Spark

python - 什么样的对象可以作为 Spark RDD 中的元素？

java - 在Hadoop中将整个文件文本添加为映射键

scala - Spark RDD的fold方法详解

apache-spark - YARN记录.gz格式如何使用命令解压缩

hadoop - 由于连接拒绝连接到端口49941， yarn 应用程序失败

hadoop - 在每个Spark阶段设置内存

hadoop - 如何为 Hadoop YARN ResourceManager 和 ApplicationTimeline 启用 GC 日志记录，同时防止日志文件覆盖和限制磁盘空间使用