python - 在 YARN 上运行 Spark 作业

标签 python apache-spark hadoop-yarn cloudera-manager

我正在尝试利用集群上的所有资源来运行 Spark 作业。我在所有节点上都安装了 Cloudera Manager。这是我用来提交作业的命令。

spark-submit --master yarn 
             --deploy-mode cluster 
             file:///[spark python file]
             file://[app argument 1]
             file://[app argument 2]

在执行期间我收到以下错误:

diagnostics: Application application_1450777964379_0027 failed 2 times due to AM Container for appattempt_1450777964379_0027_000002 exited with  exitCode: 1

任何修复方法的想法将不胜感激。

编辑 1 安装 Spark 的机器无法通过 WEB UI 访问我尝试下载源代码并阅读更多关于异常的信息。

------------------------------------------------------------
| Job | Description                                        | 
------------------------------------------------------------
| 0   | saveAsTextFile at NativeMethodAccessorImpl.java:-2 | 
------------------------------------------------------------

最佳答案

取自here ,

If the path starts with file:// or hdfs://, the path becomes ile:// or dfs://. If the path is absolute the first slash is removed.

There is no particular reason for it and needs to be fixed.

尝试使用绝对路径而不是 file://

关于python - 在 YARN 上运行 Spark 作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34738535/

上一篇：python - 使用 statsmodels 拟合负二项分布

下一篇：python - celery worker 细节

相关文章：

Python:在循环中将元素添加到numpy数组的第二轴

python - 二维数组 : row-wise operations

python3编码替换unicode字符

apache-spark - 处理大数据集时的 FetchFailedException 或 MetadataFetchFailedException

java - 将 Python/JS 转换为 Java - JSON 和 HMAC

python - randomSplit pyspark 更改数据帧的值

apache-spark - Spark驱动程序以集群模式登录边缘节点

scala - Scala 中的 Spark 爆炸 - 将爆炸列添加到行

hadoop - 我如何知道我的 YARN 集群中有多少个节点

webpack - Rails 6、webpack 和tippy.js 给出 "tippy is not defined"- 我在哪里调用tippy() 函数？