java - 如何判断文本中的某个单词是否无意义?

标签 java rss hashmap nlp search-engine

我正在用 Java 创建一个小型搜索引擎,它基本上会抓取用户指定的所有 RSS 提要,然后允许他或她选择一个单词进行搜索。由于 RSS 源文档的数量相当有限,因此我正在考虑在用户输入他或她的搜索词之前先处理这些文档。我想通过创建将某些关键字链接到包含文章本身以及该单词在文章中出现的次数的记录集合的 HashMap 来处理它们。但是,我该如何确定关键词呢?我如何辨别哪些词是无意义的,哪些是无意义的?

最佳答案

“我应该忽略哪些词?”的概念一般称为停用词。最好的搜索引擎不使用停用词。如果我是“The The”乐队的粉丝,如果你的搜索引擎找不到他们,我会很沮丧。此外,搜索确切的短语可能会被天真的停用词实现搞砸。

顺便说一句,你所说的 HashMap 称为倒排索引。我建议阅读这本(免费的在线)书籍,以了解如何构建搜索引擎:http://nlp.stanford.edu/IR-book/information-retrieval-book.html

关于java - 如何判断文本中的某个单词是否无意义?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19080284/

相关文章:

java - 添加android项目依赖失败

java - 在独立 JavaSE 应用程序中与 JAXB 和 Jackson 进行 JSON 绑定(bind)

ios - 将 RSS 提要中的缩略图图像显示到 tableView 单元格中

php - 有什么方法可以使用 PHP 或 Xslt 提取单个 XML 标记的各个部分?

java - java中的HashMap函数keyset()

java - 将2张 map 放入1张 map

java - 比较 Java 中的 2 个 HashMap

java - 等差数列中的前 1,000 个数 1, 4, 7, 10

java - 从大型 XML 文件创建 JAXB 对象

rss - 供应商创建内容并通过 RSS 在我们的网站上发布 - 这会影响我们的 SEO 吗?