apache-spark - 我怎么知道我的 Spark 工作是否在进行中?

标签 apache-spark pyspark yarn

我有一个在YARN上运行的spark作业,它似乎只是挂起,没有进行任何计算。

这是我执行yarn application -status <APPLICATIOM ID>时 yarn 所说的:

Application Report : 
Application-Id : applicationID
Application-Name : test app
Application-Type : SPARK
User : ec2-user
Queue : default
Start-Time : 1491005660004
Finish-Time : 0
Progress : 10%
State : RUNNING
Final-State : UNDEFINED
Tracking-URL : http://<ip>:4040
RPC Port : 0
AM Host : <host ip>
Aggregate Resource Allocation : 36343926 MB-seconds, 9818 vcore-seconds
Log Aggregation Status : NOT_START
Diagnostics : 

而且,当我检查yarn application -list时,它说这是RUNNING。但是我不确定我是否相信这一点。当我转到spark webUI时,在运行它的整个几个小时中,我仅看到一个阶段:

web UI

另外,当我单击“阶段”选项卡时,看不到任何运行信息:

Stages tab

如何确保我的应用程序实际上正在运行并且YARN没有对我说谎?

实际上,我宁愿为此抛出一个错误,而不是让我等待以查看该作业是否正在正常运行。我怎么做?

最佳答案

在Spark应用程序UI上

如果单击链接:“Nativexxxx的 Parquet ”,它将为您显示运行阶段的详细信息。

在该屏幕上,将出现一列“输入大小/记录”。如果您的工作正在进行中,则该列中显示的数字将会更改。

Image shows what I am trying to say

它基本上描述了您的执行者读取的记录数。

关于apache-spark - 我怎么知道我的 Spark 工作是否在进行中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43152126/

相关文章:

scala - apache Spark 纱簇

hadoop - 如何正确控制YARN容器分配增量?

apache-spark - Spark RDD - 避免随机播放 - 分区是否有助于处理大文件?

scala - CoGroupedRDD 是做什么的?

apache-spark - 使用PySpark将数据从HDFS索引到Elastic Search

python-3.x - PySpark Overwrite 添加了 sc.addPyFile

hadoop - 我们可以拥有cloudera CDH5配置生成器吗?

apache-spark - 从 Spark 读取时对 sql 表数据进行分区的问题

apache-spark - Spark 使用的 YARN 容器的命名约定是什么?

python - Spark - 字数统计测试