有没有人比较过 Lucene 中的这些词干提取器(包 org.tartarus.snowball.ext): EnglishStemmer, PorterStemmer, LovinsStemmer? 它们背后的算法有哪些优点/缺点? 什么时候应该使用它们? 或者也许有更多的算法可用于英语单词词干提取?
谢谢。
最佳答案
Lovins 词干分析器是一个 very old这个算法没有太多实际用途,因为 Porter 词干分析器要强大得多。基于对源代码的一些快速浏览,PorterStemmer
似乎实现了 Porter 的 original (1980) algorithm。 ,而 EnglishStemmer
实现了他的 updated version ,应该会更好。
Stanford NLP 工具中提供了一种更强大的词干提取算法(实际上是词形还原器)。您真正的桥梁 Lucene-Stanford NLP 可用 here (API docs)。
另见 Manning, Raghavan & Schütze有关词干提取和词形还原的一般信息。
关于java - Lucene 词干提取器之间的区别 : EnglishStemmer, PorterStemmer、LovinsStemmer,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5068790/