我下载了en_core_web_lg (en_core_web_lg-2.0.0)但是当我加载它并在 spacy 上使用它时。但它似乎错过了很多基本的常见停用词,例如“be”、“a”等。我错过了正确的版本吗?
import nltk
n = nltk.corpus.stopwords.words('english')
"be" in n
O/P:正确
import spacy
nlp = spacy.load("en_core_web_lg")
nlp.vocab["be"].is_stop
O/P:错误
最佳答案
您可能遇到过这个错误:
https://github.com/explosion/spaCy/issues/1574
en_core_web_md 和 en_core_web_lg 模型缺少停用词,但您的代码将按预期与 en_core_web_sm 配合使用。
关于python - spacy en_core_web_lg 缺少停用词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52578323/