hadoop 作业与 pyspark 和 oozie 陷入僵局

标签 hadoop pyspark oozie

我尝试使用oozie在yarn上运行pyspark，提交工作流程后，hadoop作业队列中有2个作业，一个是oozie作业，其应用程序类型为“map reduce”，另一个作业被触发通过上一个，应用程序类型为“Spark”，当第一个作业正在运行时，第二个作业仍处于“已接受”状态。问题来了，当第一个作业正在等待第二个作业完成才能继续时，第二个是等待第一个完成运行，我可能陷入死锁，我怎样才能摆脱这个麻烦，是否有应用程序类型“mapreduce”的hadoop作业与不同应用程序的其他作业并行运行类型？

here is the screenshot of hadoop jobs

如有任何建议，我们将不胜感激，谢谢!

最佳答案

请检查 Yarn 调度程序配置中的属性值。我想你需要将其增加到类似 .9 左右。

属性:yarn.scheduler.capacity.maximum-am-resource-percent

更新属性后，您需要启动 Yarn、MapReduce 和 Oozie。

More info: Setting Application Limits .

关于hadoop 作业与 pyspark 和 oozie 陷入僵局，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43849444/

上一篇：hadoop - Hadoop/Spark 生态系统内的数据移动

下一篇：mysql - 编译语句时出错: FAILED: SemanticException [Error 10002]

相关文章：

python - Spark Dataframe 区分名称重复的列

pyspark - 如何在 Windows 中使用 pyspark 启动 Spark Shell？

hadoop - Oozie相关问题

hadoop - 无法通过 -kill 命令终止 oozie 作业

hadoop - 无法启动 Hive CLI Hadoop(MapR)

Hadoop 流 : single file or multi file per map. 不要拆分

hadoop - 在每个 EMR/Yarn 节点上运行 Unix shell 命令

java - 无法使用Java程序读取HDFS:找不到或加载主类

apache-spark - 使用常规 Jupyter Notebook 导入 PySpark 包

hadoop - 使用 Oozie 执行 Sqoops

©2024 IT工具网联系我们