hadoop 作业与 pyspark 和 oozie 陷入僵局

标签 hadoop pyspark oozie

我尝试使用oozie在yarn上运行pyspark,提交工作流程后,hadoop作业队列中有2个作业,一个是oozie作业,其应用程序类型为“map reduce”,另一个作业被触发通过上一个,应用程序类型为“Spark”,当第一个作业正在运行时,第二个作业仍处于“已接受”状态。问题来了,当第一个作业正在等待第二个作业完成才能继续时,第二个是等待第一个完成运行,我可能陷入死锁,我怎样才能摆脱这个麻烦,是否有应用程序类型“mapreduce”的hadoop作业与不同应用程序的其他作业并行运行类型?

here is the screenshot of hadoop jobs

如有任何建议,我们将不胜感激,谢谢!

最佳答案

请检查 Yarn 调度程序配置中的属性值。我想你需要将其增加到类似 .9 左右。

属性:yarn.scheduler.capacity.maximum-am-resource-percent

更新属性后,您需要启动 Yarn、MapReduce 和 Oozie。

More info: Setting Application Limits .

关于hadoop 作业与 pyspark 和 oozie 陷入僵局,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43849444/

相关文章:

python - Spark Dataframe 区分名称重复的列

pyspark - 如何在 Windows 中使用 pyspark 启动 Spark Shell?

hadoop - Oozie相关问题

hadoop - 无法通过 -kill 命令终止 oozie 作业

hadoop - 无法启动 Hive CLI Hadoop(MapR)

Hadoop 流 : single file or multi file per map. 不要拆分

hadoop - 在每个 EMR/Yarn 节点上运行 Unix shell 命令

java - 无法使用Java程序读取HDFS:找不到或加载主类

apache-spark - 使用常规 Jupyter Notebook 导入 PySpark 包

hadoop - 使用 Oozie 执行 Sqoops