string - 为什么最长公共(public)子串不是词干提取算法的解决方案?

标签 string algorithm search language-agnostic search-engine

我读到有关词干提取的文章,它是将单词与公共(public)词根匹配的问题,似乎是搜索引擎中的标准问题。
一开始想到这个问题的时候,我认为这是最长公共(public)子串问题应用于N个词的经典应用。
例如。对于单词{computation, compute, computers},最长的公共(public)子串是compute,这是词干/根。
但我读到这不是解决问题的方法。其实它seems这甚至不是一个考虑因素,其他方法(后缀删除、随机等)是标准解决方案。

我的问题是:为什么N个单词的最长公共(public)子串不是这个问题的解决方案?

最佳答案

在许多语言中,语言词干通常不是常见的子串。例如,动词“to be”在许多语言中都是极不规则的。

即使对于英语名词,也有异常(exception)的例子,例如 { index, indexes, indices }。您真的想使用“索引”作为词干;如果您使用更短的“ind”作为词干,就会发生冲突,在这种情况下,独立政客将他们的政党缩写为“ind”。

关于string - 为什么最长公共(public)子串不是词干提取算法的解决方案?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15173960/

相关文章:

java - 递归字符串越界

string - 在字符串中搜索字符串的简单方法

arrays - 对数组中的偶数和奇数进行排序,同时保持顺序

mysql - 如何在字符串中添加空格以搜索菜单?

java - 为什么这个字符串与这个正则表达式不匹配?

c++ - C++中的构造函数调用歧义

c++ - 用 vector 表示和遍历一棵 n 叉树

c - 使用哈希函数的高效直方图实现

linux - Sphinx搜索,数字关键字的部分搜索?

Django Haystack/Solr : Filter results based on a field containing a LIST of states