list(gensim.utils.simple_preprocess("i you he she I it we you they", deacc=True))
给出结果:
['you', 'he', 'she', 'it', 'we', 'you', 'they']
这正常吗?它会跳过任何单词吗?我应该使用另一个分词器吗?
奖金问题: “deacc=True”参数是什么意思?
最佳答案
正如@user2357112-supports-monica 在他们的评论中提到的,这是 simple_preprocess()
设计行为的一部分,根据其 documentation , 丢弃任何短于 min_len=2
个字符的标记。
您的“奖励问题”也在同一文档中得到了回答:
- deacc (bool, optional) – Remove accent marks from tokens using deaccent()?
(deaccent()
函数是另一个实用函数,在链接中有记录,它的作用与名称和文档所建议的完全相同:从字母中删除重音符号,例如,'é'
变成了 'e'
。)
关于python - 为什么 gensim 的 simple_preprocess Python 分词器似乎跳过了 "i"分词?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61055072/