ruby - 从文本描述中简单过滤掉常用词

标签 ruby text full-text-search taxonomy stop-words

诸如“a”、“the”、“best”、“kind”之类的词。我很确定有很好的方法可以实现这一目标

澄清一下，我正在寻找

可以实现的最简单的解决方案，最好是用 ruby 实现。
我对错误有很高的容忍度
如果我需要一个常用短语库，我也非常满意

最佳答案

这些常用词被称为“停用词” - 这里有一个类似的 stackoverflow 问题:"Stop words" list for English?

总结一下:

如果您有大量文本需要处理，则值得收集有关该特定数据集中单词出现频率的统计数据，并将最常见的单词放入停用词列表中。 (您在示例中包含“kind”，这表明您可能有一组非常不寻常的数据，例如有很多像“kind of”这样的口语表达，所以也许您需要这样做。)
既然您说您不太介意错误，那么仅使用其他人生成的英语停用词列表就足够了，例如fairly long one used by MySQL或anything else that Google turns up .

如果您只是将这些单词放入程序中的哈希中，那么过滤任何单词列表应该很容易。

关于ruby - 从文本描述中简单过滤掉常用词，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/4655194/

上一篇：ruby - 想了解 EM-Synchrony 、em-http-request 和 Fiber 之间的关系吗？

下一篇：ruby - 具有低内存要求和 Ruby 界面的数据库

相关文章：

image - 数学: Add text to imported image/graphic as a label

java - 如何将字符串分解为数组

python - Django 2 + PostgreSQL FullText 搜索不匹配它应该的

python - 解释性语言中的链接和加载

mysql - 浏览器显示 MySQL 错误，我没有列

ruby - Nokogiri 无法使用 UTF-16 声明输出 XML(理解和解决)

java - 检索每个文档 Neo4j Lucene 的分数，而不仅仅是顺序

ruby - 在 Ruby 1.9 中传递 block 时生成器抛出 "wrong number of arguments"错误

javascript - 使用javascript将文本节点添加到SVG组但没有出现

javascript - 如何在jquery中搜索文本？

©2024 IT工具网联系我们