python - 带有特定 python 库的 spark-submit

标签 python pyspark spark-submit

我有一个依赖于第三方库的 pyspark 代码。我想在我的在 mesos 下运行的集群上执行这段代码。

我确实有一个 python 环境的压缩版本,它位于我的集群可访问的 http 服务器上。

我在指定我的 spark-submit 查询以使用此环境时遇到了一些麻烦。 我同时使用 --archives 加载 zip 文件和 --conf 'spark.pyspark.driver.python=path/to/my/env/bin/python'加上 --conf 'spark.pyspark.python=path/to/my/env/bin/python' 来指定事物。

这似乎不起作用……我做错了什么吗?您知道如何做到这一点吗?

干杯, 亚历克斯

最佳答案

要将 zip 文件夹提交到 python spark,您需要使用以下方式发送文件:

spark-submit --py-files your_zip your_code.py

在您的代码中使用它时,您必须使用以下语句:

sc.addPyFile("your_zip")
import your_zip

希望这会有所帮助!

关于python - 带有特定 python 库的 spark-submit,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48644166/

相关文章:

java - Spark + Kafka 流 NoClassDefFoundError kafka/serializer/StringDecoder

python - NASNet-A 微调验证精度差

python - jinja2:如何让它像 django 模板一样无声地失败

python - 类实例不可迭代

amazon-web-services - Pyspark AWS凭证

python - 创建距中心距离的列

java - 将系统属性传递给 spark-submit 并从类路径或自定义路径读取文件

python - 无法在 Windows 上安装 python Polyglot 包

apache-spark - Spark 提交错误 :Name or service not known

scala - 如何在 Spark-Submit 应用程序中执行 S3-dist-cp 命令