我对词干提取和词形还原的了解如下:
词干提取 - 将单词转换为不变的部分;有趣,有趣 - amus
词形还原 - 将单词转换为字典形式;有趣,有趣 - 有趣
我可以理解为什么要使用词形还原。但我不明白做词干背后的目的?你能解释一下吗?
最佳答案
正如您所说的词干提取 - 将单词转换为不变的部分
和词形还原 - 将单词转换为字典形式
BOW 或 tf-idf 等机器学习算法与词频相关
让我们举一个您在问题中提供的示例。
带词干
amusing, amusement
两个单词都会返回 amus
,因此这些单词将被视为相同,并且 amus
的频率将为 2。
带词形还原
amusing, amusement
两个词都返回 amuse
,因此这些词将被视为相同,并且 amuse
的频率将为 2
在你的模型中,如果你使用词干或引理并不重要(在这种特殊情况下)
词干提取只是从单词中剥离字母,而词形还原则需要查找字典来查找相关单词,因此显然词干提取比词形还原更快
因此,如果您想加快预处理速度,可以选择词干提取
而不是词形还原
缺点
如果出现词干
学习将给予学习和 研究将给予研究
即使这些词具有相同的词根,这些词也会被视为不同的
关于nlp - NLP 中 Stemming 的真正目的是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59872918/