诸如“a”、“the”、“best”、“kind”之类的词。我很确定有很好的方法可以实现这一目标
澄清一下,我正在寻找
- 可以实现的最简单的解决方案,最好是用 ruby 实现。
- 我对错误有很高的容忍度
- 如果我需要一个常用短语库,我也非常满意
最佳答案
这些常用词被称为“停用词” - 这里有一个类似的 stackoverflow 问题:"Stop words" list for English?
总结一下:
- 如果您有大量文本需要处理,则值得收集有关该特定数据集中单词出现频率的统计数据,并将最常见的单词放入停用词列表中。 (您在示例中包含“kind”,这表明您可能有一组非常不寻常的数据,例如有很多像“kind of”这样的口语表达,所以也许您需要这样做。)
- 既然您说您不太介意错误,那么仅使用其他人生成的英语停用词列表就足够了,例如fairly long one used by MySQL或anything else that Google turns up .
如果您只是将这些单词放入程序中的哈希中,那么过滤任何单词列表应该很容易。
关于ruby - 从文本描述中简单过滤掉常用词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4655194/