hadoop - 在 yarn 群集上执行Spark-Submit时看不到 yarn 作业

标签 hadoop apache-spark pyspark yarn

我正在通过以下命令将spark-submit用于我的工作:

spark-submit script_test.py --master yarn --deploy-mode集群
spark-submit script_test.py --master yarn-cluster --deploy-mode集群

这项工作进展顺利。我可以在Spark History Server UI下看到它。但是，我在RessourceManager UI(YARN)下看不到它。

我感觉我的作业没有发送到群集，但是它仅在一个节点上运行。但是，我发现使用Spark-submit命令的方式没有错。

我错了吗？我该如何检查？还是将工作发送到 yarn 簇？

最佳答案

当您使用--master yarn时，意味着您已在某个位置为 yarn 站点配置了主机，端口等。
也许您使用spark-submit的机器不知道 yarn 主控器在哪里。

您可以检查您的hadoop / yarn / spark配置文件，特别是yarn-site.xml，以检查资源管理器的主机是否正确。

这些文件位于不同的文件夹中，具体取决于您使用的Hadoop分布。在HDP中，我猜它们在/etc/hadoop/conf中

希望能帮助到你。

关于hadoop - 在 yarn 群集上执行Spark-Submit时看不到 yarn 作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46936935/

上一篇：bash - 在Packer脚本中更改文件(使用sed)使文件保持不变

下一篇：hadoop - 如何在Map Reduce范式中进行减法

相关文章：

hadoop - 使用不在 hdfs 中的文件

hadoop - 如何将Hadoop系统从0.20.1迁移到Hadoop 2.6.0？

apache-spark - spark RDD saveAsTextFile gzip

python - 在databricks初始化脚本中定义环境变量

apache-spark - Spark /Pyspark : SVM - How to get Area-under-curve?

mysql - 导出时出错: Mixed update/insert is not supported against the target database yet

hadoop - 更改配置单元表添加或删除列

java - FlatMapFunction 没有定义serialversionUid

java - org.apache.spark.sql.AnalysisException : Can't extract value from UDF_DTTM_3#54: need struct type but got timestamp;

apache-spark - 星火 ML : Taking square root of feature columns