python - spacy en_core_web_lg 缺少停用词

标签 python nlp nltk stanford-nlp spacy

我下载了en_core_web_lg (en_core_web_lg-2.0.0)但是当我加载它并在 spacy 上使用它时。但它似乎错过了很多基本的常见停用词,例如“be”、“a”等。我错过了正确的版本吗?

import nltk
n = nltk.corpus.stopwords.words('english')
"be" in n

O/P:正确

import spacy
nlp = spacy.load("en_core_web_lg")
nlp.vocab["be"].is_stop

O/P:错误

最佳答案

您可能遇到过这个错误:

https://github.com/explosion/spaCy/issues/1574

en_core_web_md 和 en_core_web_lg 模型缺少停用词,但您的代码将按预期与 en_core_web_sm 配合使用。

关于python - spacy en_core_web_lg 缺少停用词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52578323/

相关文章:

python - 多重处理不适用于计算矩阵叉积的函数

nlp - 可比语料库和平行语料库有什么区别?

命名实体的 Python 自然语言处理

python - 使用 pandas 从字符串生成 N-Grams

python - 为列表中的句子创建单词词典

python - 将 Celery 用于管道

python - 如何处理书籍交叉数据集中的 0 个条目

Python 无法解释的关键字 'sub'

python - 用权重标准化排名分数

python - 如何使这个随机文本生成器在 Python 中更高效?