python - 为什么 gensim 的 simple_preprocess Python 分词器似乎跳过了 "i"分词?

标签 python nlp tokenize gensim

list(gensim.utils.simple_preprocess("i you he she I it we you they", deacc=True))

给出结果:

['you', 'he', 'she', 'it', 'we', 'you', 'they']

这正常吗?它会跳过任何单词吗?我应该使用另一个分词器吗?

奖金问题: “deacc=True”参数是什么意思?

最佳答案

正如@user2357112-supports-monica 在他们的评论中提到的,这是 simple_preprocess() 设计行为的一部分,根据其 documentation , 丢弃任何短于 min_len=2 个字符的标记。

您的“奖励问题”也在同一文档中得到了回答:

  • deacc (bool, optional) – Remove accent marks from tokens using deaccent()?

(deaccent() 函数是另一个实用函数,在链接中有记录,它的作用与名称和文档所建议的完全相同:从字母中删除重音符号,例如,'é' 变成了 'e'。)

关于python - 为什么 gensim 的 simple_preprocess Python 分词器似乎跳过了 "i"分词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61055072/

相关文章:

python - 在项目符号数据或列出数据的情况下如何使用 nltk 句子标记器?

python - 使用 CountVectorizer 对不带空格的 unicode 句子进行正则表达式

python - 通过 Anaconda Prompt 更改 Python 版本

python - 如何替换现有方法中的函数调用

python - POS 标记的 NLTK 语料库中的正则表达式

javascript - 将字符串转换为数字 Javascript

C++ - 包含文件太多? & 结构重定义?

javascript - 将 AES 解密从 CryptoJS 移植到 PyCrypto

python - 如何读取 pickle 文件

java - 在服务器模式下运行 stanford NER 分类器