hadoop - 使用 --master yarn-cluster : issue with spark-assembly 运行 spark-submit

标签 hadoop apache-spark hadoop-yarn

我在基于 Kerberos 的集群上运行 Spark 1.1.0、HDP 2.1。我可以使用 --master yarn-client 成功运行 spark-submit,并且结果已正确写入 HDFS,但是,该作业没有显示在 Hadoop All Applications 页面上。我想使用 --master yarn-cluster 运行 spark-submit 但我仍然收到此错误:

appDiagnostics: Application application_1417686359838_0012 failed 2 times due to AM Container
for appattempt_1417686359838_0012_000002 exited with  exitCode: -1000 due to: File does not
exist: hdfs://<HOST>/user/<username>/.sparkStaging/application_<numbers>_<more numbers>/spark-assembly-1.1.0-hadoop2.4.0.jar
.Failing this attempt.. Failing the application.

我已经为我的帐户提供了对集群的访问权限。我已经配置了 yarn-site.xml。我已经清除了 .sparkStaging。我试过包括 --jars [我在 spark/lib 中的 spark 程序集的路径]。我找到了 this question这是非常相似的,但没有答案。我不知道这是 2.1 问题、spark 1.1.0、kerberized 集群、配置还是什么。任何帮助将不胜感激。

最佳答案

这可能是因为你在代码中留下了 sparkConf.setMaster("local[n]")

关于hadoop - 使用 --master yarn-cluster : issue with spark-assembly 运行 spark-submit,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27557183/

相关文章:

hadoop - 从多个表插入单个表

apache-spark - 在 solr v6+ 中替代 org.apache.solr.client.solrj.util.ClientUtils.toSolrInputDocument() 方法?

java - 异常 : Java gateway process exited before sending the driver its port number while creating a Spark Session in Python

amazon-web-services - 如何使用 apache spark 处理数百万个较小的 s3 文件

hadoop - 必须具有 core-site hdfs-site mapred-site 和 yarn-site.xml 的属性

java - 如何更改 org.apache.commons.logging.Log.info ("massage") 将写入日志文件

apache - Zookeeper 报错连接丢失异常

java - 如何在关闭它并将其写入磁盘之前获取 ParquetWriter 对象的内存大小?

python - 将数据从主机加载到 docker hive 容器

hadoop - Apache Twill 是否会重新启动被 Yarn 杀死的容器?