php - 词干提取避免将流行单词与不同含义进行匹配

标签 php nlp stemming lemmatization

我目前正在使用 PorterStemmer 来识别派生词。然而,我面临着一些单词没有相同含义但似乎具有相同含义的问题。例如:
MarketMarketing
WineWinning
等等..
有不同的含义,但 PorterStemmer 认为它们是相同的。

哪些开放工具能够解决此类问题?带有极端情况的字典?更先进的词干提取器?

最好是可以通过 PHP 轻松访问的东西。

最佳答案

这是词干分析器的一个已知问题,因为它们基于语音进行操作,而无需了解任何语言知识。你需要一个词形还原器。我主要使用Java-based Stanford CoreNLP ,但我确信 PHP 中一定有一些东西。

关于php - 词干提取避免将流行单词与不同含义进行匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14192152/

相关文章:

python - 从字符串中提取企业名称和时间段

machine-learning - 如何获得未知单词的随机word2vec向量?

php - 将任何数组转换为文本表

nlp - Java 谷歌引擎库

php - 如何获得碳中两个时间间隔之间的差异

php - 产生真实单词的词干提取算法

solr - 是否有处理莎士比亚英语的 Lucene 词干提取器?

python - 如何为 nltk 词形还原器提供(或生成)标签

php - MySQL 和 PHP - 即使变量为空也插入?

php - 如何将 jQuery 表发送到 Mysql 数据库?