nlp - NLP 中 Stemming 的真正目的是什么？

我对词干提取和词形还原的了解如下:
词干提取 - 将单词转换为不变的部分；有趣，有趣 - amus
词形还原 - 将单词转换为字典形式；有趣，有趣 - 有趣
我可以理解为什么要使用词形还原。但我不明白做词干背后的目的？你能解释一下吗？

最佳答案

正如您所说的词干提取 - 将单词转换为不变的部分

和词形还原 - 将单词转换为字典形式

BOW 或 tf-idf 等机器学习算法与词频相关

让我们举一个您在问题中提供的示例。

带词干

amusing, amusement 两个单词都会返回 amus，因此这些单词将被视为相同，并且 amus 的频率将为 2。

带词形还原 amusing, amusement 两个词都返回 amuse，因此这些词将被视为相同，并且 amuse 的频率将为 2

在你的模型中，如果你使用词干或引理并不重要(在这种特殊情况下)

词干提取只是从单词中剥离字母，而词形还原则需要查找字典来查找相关单词，因此显然词干提取比词形还原更快

因此，如果您想加快预处理速度，可以选择词干提取而不是词形还原

缺点

如果出现词干

学习将给予学习和研究将给予研究

即使这些词具有相同的词根，这些词也会被视为不同的

关于nlp - NLP 中 Stemming 的真正目的是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/59872918/

相关文章：

Python - Web 服务器可以避免导入每个请求吗？