apache-spark - 运行 Spark 的 EMR Notebooks - 如何从私有(private) github 分支安装其他库

标签 apache-spark jupyter-notebook amazon-emr

我想将 python 库安装到 EMR Notebook virtualenv 中,如 sc.install_pypi_package("arrow==0.14.0", "https://pypi.org/simple")

Python 库不是作为 pypi 包发布的,而是位于私有(private) github 存储库的自定义分支上。我如何引用 git 存储库并为 AWS EMR 提供相关的 git 凭证以使其正常工作?

该库也可用于 Spark EMR 集群(UDF 函数),还是仅可用于 jupyter 笔记本?

最佳答案

您可以在使用 Bootstrap Actions 初始化 EMR 集群时安装它。这样,该库将在 Spark Cluster 和 Jupiter Notebook 中可用。

在 bootsrap 脚本中,您可以使用 pip 从 GitHub 获取库:

pip install -e git+https://github.com/some_repo.git

参见pip_install git了解如何使用 pip 从 GitHub 克隆。

关于apache-spark - 运行 Spark 的 EMR Notebooks - 如何从私有(private) github 分支安装其他库,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59551000/

相关文章:

python - 创建 step spark python, amazon hadoop

hadoop - 在 AMAZON EMR 上运行 yarn 应用程序

python - 在 Spark 本地模式下包含包

apache-spark - 带水印的结构化流 - 类型错误 : 'module' object is not callable

jupyter-notebook - 如何从代码(python)创建/修改 jupyter 笔记本?

python - 如何在 Jupyter Notebook 中禁用单元格截断?

python-3.x - Ipywidgets Jupyter Notebook 交互忽略参数

amazon-s3 - 如何保存 impala 查询的结果

apache-spark - Spark 中的 xml 解析需要任何外部 jar 吗?

apache-spark - Pyspark - 如何进行不区分大小写的数据帧连接?