我尝试使用oozie在yarn上运行pyspark,提交工作流程后,hadoop作业队列中有2个作业,一个是oozie作业,其应用程序类型为“map reduce”,另一个作业被触发通过上一个,应用程序类型为“Spark”,当第一个作业正在运行时,第二个作业仍处于“已接受”状态。问题来了,当第一个作业正在等待第二个作业完成才能继续时,第二个是等待第一个完成运行,我可能陷入死锁,我怎样才能摆脱这个麻烦,是否有应用程序类型“mapreduce”的hadoop作业与不同应用程序的其他作业并行运行类型?
如有任何建议,我们将不胜感激,谢谢!
最佳答案
请检查 Yarn 调度程序配置中的属性值。我想你需要将其增加到类似 .9
左右。
属性:yarn.scheduler.capacity.maximum-am-resource-percent
更新属性后,您需要启动 Yarn、MapReduce 和 Oozie。
关于hadoop 作业与 pyspark 和 oozie 陷入僵局,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43849444/