我正在尝试利用集群上的所有资源来运行 Spark 作业。我在所有节点上都安装了 Cloudera Manager。这是我用来提交作业的命令。
spark-submit --master yarn
--deploy-mode cluster
file:///[spark python file]
file://[app argument 1]
file://[app argument 2]
在执行期间我收到以下错误:
diagnostics: Application application_1450777964379_0027 failed 2 times due to AM Container for appattempt_1450777964379_0027_000002 exited with exitCode: 1
任何修复方法的想法将不胜感激。
编辑 1 安装 Spark 的机器无法通过 WEB UI 访问我尝试下载源代码并阅读更多关于异常的信息。
------------------------------------------------------------
| Job | Description |
------------------------------------------------------------
| 0 | saveAsTextFile at NativeMethodAccessorImpl.java:-2 |
------------------------------------------------------------
最佳答案
取自here ,
If the path starts with file:// or hdfs://, the path becomes ile:// or dfs://. If the path is absolute the first slash is removed.
There is no particular reason for it and needs to be fixed.
尝试使用绝对路径而不是 file://
关于python - 在 YARN 上运行 Spark 作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34738535/