我目前正在使用 PorterStemmer 来识别派生词。然而,我面临着一些单词没有相同含义但似乎具有相同含义的问题。例如:
Market
和Marketing
Wine
和Winning
等等..
有不同的含义,但 PorterStemmer 认为它们是相同的。
哪些开放工具能够解决此类问题?带有极端情况的字典?更先进的词干提取器?
最好是可以通过 PHP 轻松访问的东西。
最佳答案
这是词干分析器的一个已知问题,因为它们基于语音进行操作,而无需了解任何语言知识。你需要一个词形还原器。我主要使用Java-based Stanford CoreNLP ,但我确信 PHP 中一定有一些东西。
关于php - 词干提取避免将流行单词与不同含义进行匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14192152/