python - 将从远程存储库获取的Python包传递给spark Submit/shell

标签 python pyspark pip

我有一个Python库,打包为远程存储库(Artifactory)中可用的zip文件,我想使用包的坐标(名称和名称)将其传递到spark-shell或spark-submit的python路径版本号)。我目前正在对 jar 文件执行相同的操作:

spark-shell --repositories https://artifactory.com/maven --jars group:jar-name:1.0

我想做这样的事情

spark-shell --repositories https://artifactory.com/pypi --jars zipname==1.0

这显然不起作用,因为 repositories 应该是一个 Maven 存储库,而 jars 应该是一个 jar 名称

我知道我可以提前下载zip文件并将其添加到PYTHONPATH中,但如果我可以直接通过坐标指向它会更好

最佳答案

我找到了方法,您可以将远程路径传递给--py-files,例如--py-files http://host:path_to_file/library.egg

关于python - 将从远程存储库获取的Python包传递给spark Submit/shell,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54930737/

相关文章:

python - 在 numpy 或 scipy 中左逆?

python - pyspark 最有效的日期时间戳匹配

Python pip 在 Linux mint 上不起作用

python - pip(python2)和pip3(python3)可以共存吗?

python - 有什么方法可以使 matplotlib 的 Nbagg 后端更快,或者 Inline 后端更高分辨率?

python - 使用 pyspark 从 python 运行自定义函数

python - 从元组列表创建 Spark rdd 并使用 groupByKey

python - 使用isin模拟sql的IN子句

python - 使用 Pipenv 安装 PySFML 时出现问题

python - 在Python中,是否可以迭代每个线程存储在线程局部中的值?