solr - 导入丰富的文档时,SOLR 是否有最佳实践 schema.xml?

标签 solr lucene full-text-search apache-tika solr-cell

我正在与 SOLR 合作开展一个项目,在该项目中我们导入了一堆(约 40k 项)丰富的文档,主要是 MS Word、Powerpoint、Excel 和 PDF。

是否有最佳实践schema.xml和/或 solrconfig.xml使用 ExtractingRequestHandler 时在 SOLR 中使用?

我一直在对默认模式进行调整,以尝试让 facet 在日期修改时间上工作,但即使没有,我认为很可能存在一个很好的示例,说明当 Tika 的默认输出足够时,这些文件应该如何。

如果没有最佳实践之类的东西 schema.xml和/或 solrconfig.xml我也对好的例子感兴趣,最好是来自现有的开源项目,甚至是好的博客文章。

欢迎任何指点!

最佳答案

在 Taming Text (http://www.manning.com/ingersoll/) 书中,您可以引用
提取请求处理程序。这本书是关于使用开源工具(如 solr、tika 或 lucene)处理文本的。

我一直读到第 5 章,直到现在这本书解释了如何通过修改文件 schema.xml 来创建不同类型的字段以及处理查询或索引来扩展 solr 功能。

关于solr - 导入丰富的文档时,SOLR 是否有最佳实践 schema.xml?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8393417/

相关文章:

ruby-on-rails-3 - 如何使用 Capybara/RSpec 编写请求规范以测试 Sunspot/Solr 搜索?

azure - 从 Azure 搜索获取索引架构

java - 查询在 Apache Geode 中创建的 Lucene 索引

postgresql - Postgres 全文搜索忽略 url

php - 在 MEDIUMTEXT 上使用 MySQL 进行全词搜索

objective-c - 优化扫描大文本并匹配单词或短语列表

solr - 使用 solrj 进行分布式搜索?

solr - 如何在solr的数据配置文件中添加小于和大于

Solr 错误 500 在短语查询中搜索 text_general 字段

在 lucene.net 中排序