我正在与 SOLR 合作开展一个项目,在该项目中我们导入了一堆(约 40k 项)丰富的文档,主要是 MS Word、Powerpoint、Excel 和 PDF。
是否有最佳实践schema.xml
和/或 solrconfig.xml
使用 ExtractingRequestHandler
时在 SOLR 中使用?
我一直在对默认模式进行调整,以尝试让 facet 在日期修改时间上工作,但即使没有,我认为很可能存在一个很好的示例,说明当 Tika 的默认输出足够时,这些文件应该如何。
如果没有最佳实践之类的东西 schema.xml
和/或 solrconfig.xml
我也对好的例子感兴趣,最好是来自现有的开源项目,甚至是好的博客文章。
欢迎任何指点!
最佳答案
在 Taming Text (http://www.manning.com/ingersoll/) 书中,您可以引用
提取请求处理程序。这本书是关于使用开源工具(如 solr、tika 或 lucene)处理文本的。
我一直读到第 5 章,直到现在这本书解释了如何通过修改文件 schema.xml 来创建不同类型的字段以及处理查询或索引来扩展 solr 功能。
关于solr - 导入丰富的文档时,SOLR 是否有最佳实践 schema.xml?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8393417/