apache-spark - 我怎么知道我的 Spark 工作是否在进行中？

标签 apache-spark pyspark yarn

我有一个在YARN上运行的spark作业，它似乎只是挂起，没有进行任何计算。

这是我执行yarn application -status <APPLICATIOM ID>时 yarn 所说的:

Application Report : 
Application-Id : applicationID
Application-Name : test app
Application-Type : SPARK
User : ec2-user
Queue : default
Start-Time : 1491005660004
Finish-Time : 0
Progress : 10%
State : RUNNING
Final-State : UNDEFINED
Tracking-URL : http://<ip>:4040
RPC Port : 0
AM Host : <host ip>
Aggregate Resource Allocation : 36343926 MB-seconds, 9818 vcore-seconds
Log Aggregation Status : NOT_START
Diagnostics :

而且，当我检查yarn application -list时，它说这是RUNNING。但是我不确定我是否相信这一点。当我转到spark webUI时，在运行它的整个几个小时中，我仅看到一个阶段:

web UI

另外，当我单击“阶段”选项卡时，看不到任何运行信息:

Stages tab

如何确保我的应用程序实际上正在运行并且YARN没有对我说谎？

实际上，我宁愿为此抛出一个错误，而不是让我等待以查看该作业是否正在正常运行。我怎么做？

最佳答案

在Spark应用程序UI上

如果单击链接:“Nativexxxx的 Parquet ”，它将为您显示运行阶段的详细信息。

在该屏幕上，将出现一列“输入大小/记录”。如果您的工作正在进行中，则该列中显示的数字将会更改。

它基本上描述了您的执行者读取的记录数。

关于apache-spark - 我怎么知道我的 Spark 工作是否在进行中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43152126/

上一篇：model-view-controller - 你知道 PAC 设计模式的任何例子吗？

下一篇：model-view-controller - MVC-在哪里实现表单验证(服务器端)？

相关文章：

scala - apache Spark 纱簇

hadoop - 如何正确控制YARN容器分配增量？

apache-spark - Spark RDD - 避免随机播放 - 分区是否有助于处理大文件？

scala - CoGroupedRDD 是做什么的？

apache-spark - 使用PySpark将数据从HDFS索引到Elastic Search

python-3.x - PySpark Overwrite 添加了 sc.addPyFile

hadoop - 我们可以拥有cloudera CDH5配置生成器吗？

apache-spark - 从 Spark 读取时对 sql 表数据进行分区的问题

apache-spark - Spark 使用的 YARN 容器的命名约定是什么？

python - Spark - 字数统计测试

©2024 IT工具网联系我们