我读到有关词干提取的文章,它是将单词与公共(public)词根匹配的问题,似乎是搜索引擎中的标准问题。
一开始想到这个问题的时候,我认为这是最长公共(public)子串问题应用于N
个词的经典应用。
例如。对于单词{computation, compute, computers}
,最长的公共(public)子串是compute
,这是词干/根。
但我读到这不是解决问题的方法。其实它seems这甚至不是一个考虑因素,其他方法(后缀删除、随机等)是标准解决方案。
我的问题是:为什么N
个单词的最长公共(public)子串不是这个问题的解决方案?
最佳答案
在许多语言中,语言词干通常不是常见的子串。例如,动词“to be”在许多语言中都是极不规则的。
即使对于英语名词,也有异常(exception)的例子,例如 { index, indexes, indices }。您真的想使用“索引”作为词干;如果您使用更短的“ind”作为词干,就会发生冲突,在这种情况下,独立政客将他们的政党缩写为“ind”。
关于string - 为什么最长公共(public)子串不是词干提取算法的解决方案?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15173960/