string - 为什么最长公共(public)子串不是词干提取算法的解决方案？

标签 string algorithm search language-agnostic search-engine

我读到有关词干提取的文章，它是将单词与公共(public)词根匹配的问题，似乎是搜索引擎中的标准问题。
一开始想到这个问题的时候，我认为这是最长公共(public)子串问题应用于N个词的经典应用。
例如。对于单词{computation, compute, computers}，最长的公共(public)子串是compute，这是词干/根。
但我读到这不是解决问题的方法。其实它seems这甚至不是一个考虑因素，其他方法(后缀删除、随机等)是标准解决方案。

我的问题是:为什么N个单词的最长公共(public)子串不是这个问题的解决方案？

最佳答案

在许多语言中，语言词干通常不是常见的子串。例如，动词“to be”在许多语言中都是极不规则的。

即使对于英语名词，也有异常(exception)的例子，例如 { index, indexes, indices }。您真的想使用“索引”作为词干；如果您使用更短的“ind”作为词干，就会发生冲突，在这种情况下，独立政客将他们的政党缩写为“ind”。

关于string - 为什么最长公共(public)子串不是词干提取算法的解决方案？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15173960/

上一篇：algorithm - 如何提高关键字搜索的性能？

下一篇：解决平铺/拼图游戏的算法

相关文章：

java - 递归字符串越界

string - 在字符串中搜索字符串的简单方法

arrays - 对数组中的偶数和奇数进行排序，同时保持顺序

mysql - 如何在字符串中添加空格以搜索菜单？

java - 为什么这个字符串与这个正则表达式不匹配？

c++ - C++中的构造函数调用歧义

c++ - 用 vector 表示和遍历一棵 n 叉树

c - 使用哈希函数的高效直方图实现

linux - Sphinx搜索，数字关键字的部分搜索？

Django Haystack/Solr : Filter results based on a field containing a LIST of states