pyspark - EMR PySpark "ModuleNotFoundError: No module named ' spacy'"

标签 pyspark pip conda amazon-emr spacy

我一直没有成功尝试将 Spacy 安装到我的 EMR 集群上以运行 Pyspark 作业。
我对 EMR 的引导操作看起来像这样

pip install --upgrade pip

sudo conda install -c conda-forge spacy
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en 

sudo python3 -m pip install -U spacy
sudo python3 -m pip install -U boto3
sudo python3 -m pip install -U pandas
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en


正如您在上面看到的,我一直在尝试通过 pip 和 conda 安装它,但似乎都不起作用。
令人惊讶的是,当我使用 jupyter 笔记本而不尝试将我的 pyspark 作业作为 EMR 的一个步骤提交时,它确实有效。

最佳答案

我遇到过类似的问题。一些可行的方法:

  • 在引导操作中检查 EMR 中的 stdout、stderr 文件。在 cluster-Configuration details-LOG URI
  • 的摘要部分中提到了它
  • 显然,Spacy 具有 Cython 依赖项,并且不会自动下载。因此包括以下命令帮助:
  •     sudo python3 -m pip install --upgrade pip
    
        sudo python3 -m pip install --upgrade pip setuptools
        
        sudo python3 -m pip install wheel
        
        sudo python3 -m pip install -U Cython
    
        sudo python3 -m pip install -U spacy==2.3.5
    
        sudo python3 -m spacy download en_core_web_sm 
    

    关于pyspark - EMR PySpark "ModuleNotFoundError: No module named ' spacy'",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58309896/

    相关文章:

    python - 无法在 Windows 上安装适用于 python 3.8.1 的 lxml

    python-3.x - 如何在conda环境中为python 3运行IDLE?

    python - PySpark 中的随机数生成

    pyspark - 如何在pyspark中获得每个PCA组件的解释方差

    apache-spark - 如何计算通过百分比并插入到 Spark 数据框中的列中?

    apache-spark - 从 pyspark 数据帧中减去平均值

    python - 如何在没有 pip 的情况下升级/安装软件包

    python-2.7 - 使用 pip 安装的包是否会根据 python 配置发生变化?

    anaconda - 使用conda安装软件包如何更改我的python版本并删除co​​nda?

    python - Heroku推送失败: Distribution version mismatch with Anaconda-Client