python - 为什么 gensim 的 simple_preprocess Python 分词器似乎跳过了 "i"分词？

list(gensim.utils.simple_preprocess("i you he she I it we you they", deacc=True))

给出结果:

['you', 'he', 'she', 'it', 'we', 'you', 'they']

这正常吗？它会跳过任何单词吗？我应该使用另一个分词器吗？

奖金问题: “deacc=True”参数是什么意思？

最佳答案

正如@user2357112-supports-monica 在他们的评论中提到的，这是 simple_preprocess() 设计行为的一部分，根据其 documentation , 丢弃任何短于 min_len=2 个字符的标记。

您的“奖励问题”也在同一文档中得到了回答:

deacc (bool, optional) – Remove accent marks from tokens using deaccent()?

(deaccent() 函数是另一个实用函数，在链接中有记录，它的作用与名称和文档所建议的完全相同:从字母中删除重音符号，例如，'é' 变成了 'e'。)

关于python - 为什么 gensim 的 simple_preprocess Python 分词器似乎跳过了 "i"分词？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/61055072/