apache-spark - 通过 conda 安装 pyspark 时没有 start-history-server.sh

标签 apache-spark pyspark conda miniconda spark-ui

我已经通过 conda install pyspark 在 Ubuntu 的 miniconda 环境中安装了 pyspark。到目前为止一切正常:我可以通过 spark-submit 运行作业，并且可以在 localhost:4040 检查正在运行的作业。但是我找不到 start-history-server.sh，我需要查看已完成的作业。

应该在{spark}/sbin，其中{spark}是spark的安装目录。当通过 conda 安装 spark 时，我不确定它应该在哪里，但我已经搜索了整个 miniconda 目录，但我似乎无法找到 start-history-server.sh。对于它的值(value)，这适用于 python 3.7 和 2.7 环境。

我的问题是:start-history-server.sh 是否包含在 pyspark 的 conda 安装中？如果是，在哪里？如果否，建议的事后评估 Spark 作业的替代方法是什么？

最佳答案

编辑:我已提交拉取请求以将历史服务器脚本添加到 pyspark。拉取请求已合并，因此这应该会暂时显示在 Spark 3.0 中。

正如@pedvaljim 在评论中指出的那样，这不是特定于 conda 的，目录 sbin 根本不包含在 pyspark 中。

好消息是可以手动下载这个文件夹from github (即不确定如何只下载一个目录，我只是克隆了所有的 spark)到你的 spark 文件夹中。如果您使用的是 mini- 或 anaconda，则 spark 文件夹是例如miniconda3/envs/{name_of_environment}/lib/python3.7/site-packages/pyspark。

关于apache-spark - 通过 conda 安装 pyspark 时没有 start-history-server.sh，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54419102/

上一篇：棱 Angular Material 。移动设备屏幕外的对话框操作

下一篇：php - reCAPTCHA v3 验证分数出现问题

python - 为 conda 安装 pip3

apache-spark - 我什么时候应该重新分区 RDD？

apache-spark - 如何在 Spark 执行器上设置 Python 的优化模式(-O)？

apache-spark - 在 Spark 2.0 中加载压缩的 gzip csv 文件

python - Pyspark MLlib 中的自定义算法 : 'function' object has no attribute '_input_kwargs'

python - `conda env update` 是否删除不属于环境文件的包？

conda - 在 Ubuntu 和 Windows 之间转移 Conda 环境

scala - 从Oozie中安排的Spark Scala向Hbase写入时出现问题

java - 如何使用 Java 在 Spark Rdd 中建立单个 Mongo 连接