我想将 python 库安装到 EMR Notebook virtualenv 中,如 sc.install_pypi_package("arrow==0.14.0", "https://pypi.org/simple")
。
Python 库不是作为 pypi 包发布的,而是位于私有(private) github 存储库的自定义分支上。我如何引用 git 存储库并为 AWS EMR 提供相关的 git 凭证以使其正常工作?
该库也可用于 Spark EMR 集群(UDF 函数),还是仅可用于 jupyter 笔记本?
最佳答案
您可以在使用 Bootstrap Actions 初始化 EMR 集群时安装它。这样,该库将在 Spark Cluster 和 Jupiter Notebook 中可用。
在 bootsrap 脚本中,您可以使用 pip
从 GitHub 获取库:
pip install -e git+https://github.com/some_repo.git
参见pip_install git了解如何使用 pip 从 GitHub 克隆。
关于apache-spark - 运行 Spark 的 EMR Notebooks - 如何从私有(private) github 分支安装其他库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59551000/