我一直没有成功尝试将 Spacy 安装到我的 EMR 集群上以运行 Pyspark 作业。
我对 EMR 的引导操作看起来像这样
pip install --upgrade pip
sudo conda install -c conda-forge spacy
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en
sudo python3 -m pip install -U spacy
sudo python3 -m pip install -U boto3
sudo python3 -m pip install -U pandas
sudo python3 -m spacy download en_core_web_sm
sudo python3 -m spacy download en
正如您在上面看到的,我一直在尝试通过 pip 和 conda 安装它,但似乎都不起作用。
令人惊讶的是,当我使用 jupyter 笔记本而不尝试将我的 pyspark 作业作为 EMR 的一个步骤提交时,它确实有效。
最佳答案
我遇到过类似的问题。一些可行的方法:
sudo python3 -m pip install --upgrade pip
sudo python3 -m pip install --upgrade pip setuptools
sudo python3 -m pip install wheel
sudo python3 -m pip install -U Cython
sudo python3 -m pip install -U spacy==2.3.5
sudo python3 -m spacy download en_core_web_sm
关于pyspark - EMR PySpark "ModuleNotFoundError: No module named ' spacy'",我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58309896/