nlp - NLP 中 Stemming 的真正目的是什么?

标签 nlp stemming lemmatization

我对词干提取和词形还原的了解如下:
词干提取 - 将单词转换为不变的部分;有趣,有趣 - amus
词形还原 - 将单词转换为字典形式;有趣,有趣 - 有趣
我可以理解为什么要使用词形还原。但我不明白做词干背后的目的?你能解释一下吗?

最佳答案

正如您所说的词干提取 - 将单词转换为不变的部分

词形还原 - 将单词转换为字典形式

BOW 或 tf-idf 等机器学习算法与词频相关

让我们举一个您在问题中提供的示例。

带词干

amusing, amusement 两个单词都会返回 amus,因此这些单词将被视为相同,并且 amus 的频率将为 2。

带词形还原 amusing, amusement 两个词都返回 amuse,因此这些词将被视为相同,并且 amuse 的频率将为 2

在你的模型中,如果你使用词干或引理并不重要(在这种特殊情况下)

词干提取只是从单词中剥离字母,而词形还原则需要查找字典来查找相关单词,因此显然词干提取比词形还原更快

因此,如果您想加快预处理速度,可以选择词干提取而不是词形还原

缺点

如果出现词干

学习将给予学习和 研究将给予研究

即使这些词具有相同的词根,这些词也会被视为不同的

关于nlp - NLP 中 Stemming 的真正目的是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59872918/

相关文章:

Python - Web 服务器可以避免导入每个请求吗?

python - 拥抱脸的分类头是什么 AutoModelForTokenClassification Model

c++ - 可更新的 DAWG 库或未分类数据的 DAWG 构造

nlp - 有没有好的希伯来语词干分析器?

solr - 使用词干提取时如何基于 rawquerystring 提升 solr 结果

python - 网络抓取数据的词形还原

python - 如何让 *logger 和 *ology 这样的词词干/词形还原为相同的词根?

machine-learning - 如何将tensorflow的word2vec保存在文本/二进制文件中以供以后使用kNN输出?

python - 如何从词干提取中排除某些名称和术语 (Python NLTK SnowballStemmer (Porter2))

python - stemmer 和 lemmatizer 似乎都不太好用,我该怎么办?