solr - Solr 是否可以索引纯文本文件，而无需通过 Tika 运行它们？

我仅处于 Solr 的研究阶段，但到目前为止，要索引非结构化文本文件，我必须使用 Tika 将其转换为 XML？这是真的？我觉得奇怪的是，Lucene 可以在不进行任何转换的情况下对任意文本进行标记和索引，但 Solr 需要转换为 XML 的额外步骤。我想也许我只是错过了一些东西。

我正在研究每天对数百万个文件和数百 GB 的近实时全文搜索，因此额外的 Tika 转换很麻烦。

最佳答案

感谢您的回复。 @javanna 我的问题最好问为“无需以任何方式预处理输入”。它们数量太多、速度太快、体型太大，因此速度很重要。 @Oklein 在研究你提到的 DIH 时，我偶然发现了这个文档:

基本上我追求的答案是，使用 ExtractingRequestHandler 处理纯文本文件并即时添加额外的字段。现在我正在使用 cURL，它可以使用 GET 参数添加字段，并将致力于使用 SolrJ 执行等效操作。

关于solr - Solr 是否可以索引纯文本文件，而无需通过 Tika 运行它们？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11808635/