我有一个依赖于第三方库的 pyspark 代码。我想在我的在 mesos 下运行的集群上执行这段代码。
我确实有一个 python 环境的压缩版本,它位于我的集群可访问的 http 服务器上。
我在指定我的 spark-submit 查询以使用此环境时遇到了一些麻烦。
我同时使用 --archives
加载 zip 文件和 --conf 'spark.pyspark.driver.python=path/to/my/env/bin/python'
加上 --conf 'spark.pyspark.python=path/to/my/env/bin/python'
来指定事物。
这似乎不起作用……我做错了什么吗?您知道如何做到这一点吗?
干杯, 亚历克斯
最佳答案
要将 zip 文件夹提交到 python spark,您需要使用以下方式发送文件:
spark-submit --py-files your_zip your_code.py
在您的代码中使用它时,您必须使用以下语句:
sc.addPyFile("your_zip")
import your_zip
希望这会有所帮助!
关于python - 带有特定 python 库的 spark-submit,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48644166/