我有一个在YARN
上运行的spark作业,它似乎只是挂起,没有进行任何计算。
这是我执行yarn application -status <APPLICATIOM ID>
时 yarn 所说的:
Application Report :
Application-Id : applicationID
Application-Name : test app
Application-Type : SPARK
User : ec2-user
Queue : default
Start-Time : 1491005660004
Finish-Time : 0
Progress : 10%
State : RUNNING
Final-State : UNDEFINED
Tracking-URL : http://<ip>:4040
RPC Port : 0
AM Host : <host ip>
Aggregate Resource Allocation : 36343926 MB-seconds, 9818 vcore-seconds
Log Aggregation Status : NOT_START
Diagnostics :
而且,当我检查
yarn application -list
时,它说这是RUNNING
。但是我不确定我是否相信这一点。当我转到spark webUI时,在运行它的整个几个小时中,我仅看到一个阶段:另外,当我单击“阶段”选项卡时,看不到任何运行信息:
如何确保我的应用程序实际上正在运行并且
YARN
没有对我说谎?实际上,我宁愿为此抛出一个错误,而不是让我等待以查看该作业是否正在正常运行。我怎么做?
最佳答案
在Spark应用程序UI上
如果单击链接:“Nativexxxx的 Parquet ”,它将为您显示运行阶段的详细信息。
在该屏幕上,将出现一列“输入大小/记录”。如果您的工作正在进行中,则该列中显示的数字将会更改。
它基本上描述了您的执行者读取的记录数。
关于apache-spark - 我怎么知道我的 Spark 工作是否在进行中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43152126/