ruby - 从文本描述中简单过滤掉常用词

标签 ruby text full-text-search taxonomy stop-words

诸如“a”、“the”、“best”、“kind”之类的词。我很确定有很好的方法可以实现这一目标

澄清一下,我正在寻找

  1. 可以实现的最简单的解决方案,最好是用 ruby​​ 实现。
  2. 我对错误有很高的容忍度
  3. 如果我需要一个常用短语库,我也非常满意

最佳答案

这些常用词被称为“停用词” - 这里有一个类似的 stackoverflow 问题:"Stop words" list for English?

总结一下:

  • 如果您有大量文本需要处理,则值得收集有关该特定数据集中单词出现频率的统计数据,并将最常见的单词放入停用词列表中。 (您在示例中包含“kind”,这表明您可能有一组非常不寻常的数据,例如有很多像“kind of”这样的口语表达,所以也许您需要这样做。)
  • 既然您说您不太介意错误,那么仅使用其他人生成的英语停用词列表就足够了,例如fairly long one used by MySQLanything else that Google turns up .

如果您只是将这些单词放入程序中的哈希中,那么过滤任何单词列表应该很容易。

关于ruby - 从文本描述中简单过滤掉常用词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/4655194/

相关文章:

image - 数学: Add text to imported image/graphic as a label

java - 如何将字符串分解为数组

python - Django 2 + PostgreSQL FullText 搜索不匹配它应该的

python - 解释性语言中的链接和加载

mysql - 浏览器显示 MySQL 错误,我没有列

ruby - Nokogiri 无法使用 UTF-16 声明输出 XML(理解和解决)

java - 检索每个文档 Neo4j Lucene 的分数,而不仅仅是顺序

ruby - 在 Ruby 1.9 中传递 block 时生成器抛出 "wrong number of arguments"错误

javascript - 使用javascript将文本节点添加到SVG组但没有出现

javascript - 如何在jquery中搜索文本?