我正在通过以下命令将spark-submit用于我的工作:
spark-submit script_test.py --master yarn --deploy-mode集群
spark-submit script_test.py --master yarn-cluster --deploy-mode集群
这项工作进展顺利。我可以在Spark History Server UI下看到它。但是,我在RessourceManager UI(YARN)下看不到它。
我感觉我的作业没有发送到群集,但是它仅在一个节点上运行。但是,我发现使用Spark-submit命令的方式没有错。
我错了吗?我该如何检查?还是将工作发送到 yarn 簇?
最佳答案
当您使用--master yarn
时,意味着您已在某个位置为 yarn 站点配置了主机,端口等。
也许您使用spark-submit的机器不知道 yarn 主控器在哪里。
您可以检查您的hadoop / yarn / spark配置文件,特别是yarn-site.xml,以检查资源管理器的主机是否正确。
这些文件位于不同的文件夹中,具体取决于您使用的Hadoop分布。在HDP中,我猜它们在/etc/hadoop/conf
中
希望能帮助到你。
关于hadoop - 在 yarn 群集上执行Spark-Submit时看不到 yarn 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46936935/