Solr "Content"字段与 "_text_"字段

标签 solr

我想知道内容字段与 _text_ 字段有什么区别。我遇到了一个问题,我为所有文档/pdf 编制了索引,但出于某种原因,我无法访问这些文档/pdf 中的实际文本/信息。我注意到我没有“内容”字段,所以我刚刚创建了一个,目前正在重新编制索引。但是,我注意到我有一个 _text_ 字段 stored=false。这两个字段是否都采用文档/pdf 中的所有文本?

最佳答案

_text_ 是在新的 Solr 核心上默认定义的字段(参见 https://lucene.apache.org/solr/guide/7_5/schemaless-mode.html)。

新 Solr 核心中的默认 managed-schema 文件没有显示任何内容以表明它填充了任何内容,因此我怀疑是否填充它取决于您。

_text_ 字段可用于转储文档中所有文本的副本,但这是您必须要做的事情(手动填充 _text_ 字段或使用 copyFields。)

_text_ 被索引但未存储的事实意味着您可以在其中搜索文本(因为它已被索引)但您无法获取并向用户显示其值(因为它不是存储)。

关于Solr "Content"字段与 "_text_"字段,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58453718/

相关文章:

在 Apache Solr 中对文件夹及其子文件夹中包含的所有文件进行索引

tomcat - 如何在 Windows 上安装 SOLR 7.2.1 + Tomcat?

java - 在SOLR中使用类似操作

java - Solr 数据导入请求处理程序异常

java - uniqueKey 生成在 SolrCloud 中不起作用(但如果独立则可以)

solr - SOLR 是否支持 String 类型字段的子字符串函数?

solr - solr 查询中哪些特殊字符需要转义?

mysql - 数据从mysql导入到solr?

Apache Solr 基于分数和 fieldn 值进行排序

solr - 复制只读 solr 服务器