solr - 导入丰富的文档时，SOLR 是否有最佳实践 schema.xml？

标签 solr lucene full-text-search apache-tika solr-cell

我正在与 SOLR 合作开展一个项目，在该项目中我们导入了一堆(约 40k 项)丰富的文档，主要是 MS Word、Powerpoint、Excel 和 PDF。

是否有最佳实践schema.xml和/或 solrconfig.xml使用 ExtractingRequestHandler 时在 SOLR 中使用?

我一直在对默认模式进行调整，以尝试让 facet 在日期修改时间上工作，但即使没有，我认为很可能存在一个很好的示例，说明当 Tika 的默认输出足够时，这些文件应该如何。

如果没有最佳实践之类的东西 schema.xml和/或 solrconfig.xml我也对好的例子感兴趣，最好是来自现有的开源项目，甚至是好的博客文章。

欢迎任何指点!

最佳答案

在 Taming Text (http://www.manning.com/ingersoll/) 书中，您可以引用
提取请求处理程序。这本书是关于使用开源工具(如 solr、tika 或 lucene)处理文本的。

我一直读到第 5 章，直到现在这本书解释了如何通过修改文件 schema.xml 来创建不同类型的字段以及处理查询或索引来扩展 solr 功能。

关于solr - 导入丰富的文档时，SOLR 是否有最佳实践 schema.xml？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8393417/

上一篇：protocols - 传输层如何从数据报包中检索源 IP 地址？

下一篇：animation - 以编程方式生成 .mov 或 .flv 视频文件的最佳开源框架是什么？

azure - 从 Azure 搜索获取索引架构

java - 查询在 Apache Geode 中创建的 Lucene 索引

postgresql - Postgres 全文搜索忽略 url

php - 在 MEDIUMTEXT 上使用 MySQL 进行全词搜索

objective-c - 优化扫描大文本并匹配单词或短语列表

solr - 使用 solrj 进行分布式搜索？

solr - 如何在solr的数据配置文件中添加小于和大于

Solr 错误 500 在短语查询中搜索 text_general 字段

在 lucene.net 中排序