comparison - 什么是最好的 "turnkey"词干提取算法?

标签 comparison stemming

就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the help center为指导。




10年前关闭。




我正在从事的项目需要一个好的词干提取算法。有人建议我看看 Porter Stemmer。当我查看 Porter 词干分析器的页面时,我发现它现在已被弃用,取而代之的是“雪球”词干分析器。

我需要一个好的词干提取器,但我真的不能花大量时间来实现(或优化)我自己的。什么是最好的“现成的”、免费的词干分析器?是否有价格合理的非免费词干分析器?或者,Snowball 词干分析器是我最好的选择吗?

最佳答案

Porter2 stemmer 是我决定使用的那个。似乎 porter 词干分析器是标准的,但是当我找到作者的页面时,他推荐了“Snowball (Porter2)”词干分析器。此页面上有一个 C 端口链接。

关于comparison - 什么是最好的 "turnkey"词干提取算法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/226485/

相关文章:

python - 使用 Python NLTK 对英语和俄语等语言进行词干提取和词形还原

java - 逻辑缺陷: if List<String> is null return input else print function output

mysql - 使用 REGEXP (MySql) 在单词边界内查询以字符串开头/结尾的记录

algorithm - 词干提取——代码示例还是开源项目?

powershell - 为什么枚举后比较运算符不起作用?

JavaScript:大于或等于正零?

c# - 我应该如何比较这些 double 以获得所需的结果?

java - 双重比较问题

R tm StemCompletion 生成 NA 值

c# - 为什么 List<T> 的 SequenceEqual 返回 false?