python - NLTK 词干产生奇怪的结果

标签 python nlp nltk

运行 nltk.stem.porter.PorterStemmer().stem_word(word) 后,我得到很多单词的 'ing' 被截断或 'y' 与 'i' 交换。例如“质量”变成了“质量”,(甚至更奇怪)“值(value)”变成了“值(value)”?

由于生成的单词不是实际的英语单词,我不确定我应该如何使用它们?我最好的猜测是,我打算将词干放入另一个函数中,该函数将为我提供来自该词干的所有派生词/子词(例如,'valu' 将返回 ['valuing','valued', 'values ', ...].有这样的功能吗?

最佳答案

词干提取通过一系列去除常见后缀和前缀的转换规则来提取词干。因此,产生的结果可能不是真正的英语单词。 词干提取的一般用途是规范化单词,使它们被认为是相同的。例如:

stem_word('value') == stem_word('valuing')

然后可以将词干词编入索引以供搜索。对传入查询进行相同的词干提取,以便查询词在进行查找时与索引中的词干词匹配。

关于python - NLTK 词干产生奇怪的结果,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11515339/

相关文章:

python - 使用标准 django.contrib.auth.models.User 模型在 Sqlite 数据库中查询用户名 "x"的用户

python - 如何在 Tensorflow 中重用模型

python - 如何从下面的段落中得到第一句话?

python - 如何在 python 中使用 NLTK 从原始文本中提取地址?

python - 如何对不使用英语字母的语言中的单词进行词形还原?

python - 获取二维数组中最近的坐标

python - 尝试在 Django 中使用 Content_type 自然键加载固定装置时出现类型错误

scala - Scala 中的词性标注

python - 如何从图像中提取表格数据?

python - 找不到资源 u'tokenizers/punkt/english.pickle'