solr - Solr 是否可以索引纯文本文件,而无需通过 Tika 运行它们?

标签 solr apache-tika

我仅处于 Solr 的研究阶段,但到目前为止,要索引非结构化文本文件,我必须使用 Tika 将其转换为 XML?这是真的?我觉得奇怪的是,Lucene 可以在不进行任何转换的情况下对任意文本进行标记和索引,但 Solr 需要转换为 XML 的额外步骤。我想也许我只是错过了一些东西。

我正在研究每天对数百万个文件和数百 GB 的近实时全文搜索,因此额外的 Tika 转换很麻烦。

最佳答案

感谢您的回复。 @javanna 我的问题最好问为“无需以任何方式预处理输入”。它们数量太多、速度太快、体型太大,因此速度很重要。 @Oklein 在研究你提到的 DIH 时,我偶然发现了这个文档:

http://www.lucidimagination.com/sites/default/files/file/whitepaper/LIWP_IndexingTextandHTMLFilesWithSolr.pdf

基本上我追求的答案是,使用 ExtractingRequestHandler 处理纯文本文件并即时添加额外的字段。现在我正在使用 cURL,它可以使用 GET 参数添加字段,并将致力于使用 SolrJ 执行等效操作。

http://wiki.apache.org/solr/ExtractingRequestHandler#SolrJ

关于solr - Solr 是否可以索引纯文本文件,而无需通过 Tika 运行它们?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11808635/

相关文章:

java - 在 Java 中将 GrobidExtractor.properties 传递给 Tika?

adobe - 带有加密 PDF 的 Apache Tika

java - 在 Solr 中搜索 "Hash sign"

lucene - 是否有一套从关系数据库构建 Lucene 索引的最佳实践?

java - 为了将 html 解析为字符串,我使用了 tika 解析器,但我遇到了一些问题,例如 jdeveloper 中的库和错误

pdf - Tika解析器: Exclude PDF Attachments

java - 如何在 Java 中将 HTML 解析器与 Apache Tika 一起使用以提取所有 HTML 标记?

django - 显示 'None' haystack 的拼写建议

javascript - solr 正在为我的本地 iis 工作,而不是为托管 iis 工作

comparison - lucene vs solr 评分