apache - SOLR中倒排索引的数据结构到底长什么样

标签 apache solr lucene inverted-index

所有,请原谅我,我才刚刚开始学习如何使用 SOLR。强大的SE。 而且我已经知道 倒排索引SOLR 中搜索速度如此之快的原因。在许多阅读。就像 Solr in actionApache Solr 搜索模式。倒排索引如下所述。

enter image description here

而且我还知道 Document 是由 Fields 组成的。 在我对上面数据结构的理解中。当使用特定术语(如“Harry”)进行搜索时。 SE 将返回结果文档 1,2。我对此毫无疑问。

但是当我阅读 guide from apache .它说

Analysis takes place in two contexts. At index time, when a field is being created, the token stream that results from analysis is added to an index and defines the set of terms (including positions, sizes, and so on) for the field. At query time, the values being searched for are analyzed and the terms that result are matched against those that are stored in the field's index.

我对这篇文章感到困惑。

倒排索引指向的是文档还是字段? 在我提到的图表中。它没有提到任何关于领域的事情。它只是说索引指向文档 ID。 但在阅读中我引用了。它确实告诉我们倒排索引指向的是字段而不是文档。 (如果我错了。请纠正我。) 谢谢。

最佳答案

我理解您的困惑,这是文献解释手头主题过度简化的案例之一。大多数文献解释和倒排索引使用的文档只是文本,因此(如图所示)一个文档只是一系列字符,不存在其他“字段”。

当您解释倒排索引是什么时,这会很有用,但当您与实际实现(如 Lucene/ES/Solr 提供的实现)交互时,实际情况会有所不同。

也许 this post可能会有用,如果你一直往下看,阅读会有点密集,但如果你只是想捕获要点,不要试图一口气读懂所有内容。请注意,Lucene 实现包含更多技术细节,例如,以确保性能和减少磁盘使用。

最重要的是,基本上每个字段本身就像一个“迷你倒排索引”,并允许知道与您的查询匹配的文档的哪个特定“部分/字段”,因此您可以影响您的分数(通常结果是如何排序的)相应地。如果你总是有平面文件,搜索引擎就不会那么有用了。

关于apache - SOLR中倒排索引的数据结构到底长什么样,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33929377/

相关文章:

apache - 如何查找Tomcat服务器上运行了多少个网站?

solr - 配置 Solr 以使用 UUID 作为键

SolrCloud 与 Solr 主从复制

java - Lucene:FastVectorHighlighter 返回 null

indexing - 如何为 ElasticSearch 设置字段映射以允许精确搜索和全文搜索?

android - java.lang.NoSuchFieldError : org. apache.http.message.BasicHeaderValueFormatter.INSTANCE android

java - 无法启动本地 Vaadin 测试站点

java - 当分区大小设置为零时,NifiGenerateTableFetch 给出错误

asp.net-mvc-3 - Windows Server 2008 R2 上的 Solr

solr - Solr 4.0中的mergeFactor用法